DCGM エクスポータの構成(Kubernetes)
次の構成を使用して、Kubernetes クラスター内の GPU ノードに DaemonSet として NVIDIA DCGM エクスポータを展開します。マシンエージェントを設定して GPU メトリックを収集し、クラスタエージェントを使用してクラスター全体の GPU モニタリングを有効にすることができます。
-
Kubernetes 環境:
-
Kubernetes Flavor:Vanilla Kubernetes。
-
Kubernetes バージョン:1.28 以降(kubectl バージョンを使用して確認)。
-
-
GPUノード:
-
NVIDIA ドライバ(バージョン 550.x 以降)
-
NVIDIA Container Toolkit(NVIDIA GPU Operator バージョン 24.9.x 以降でインストール可能)
-
-
クラスタエージェントの設定:クラスタエージェントの仕様で GPU モニタリングを有効にします。
gpuMonitoringEnabled: true -
コントローラの設定:次のコントローラフラグを使用して、アカウントレベルで GPU モニタリングを有効にします。
sim.cluster.gpu.enabled=true -
マシンエージェントの DaemonSet:GPU がサポートされたマシンエージェント Docker イメージを使用します。次のいずれかの方法を使用して、マシンエージェントで GPU モニタリングを有効にします。
-
システムプロパティ:
-Dappdynamics.machine.agent.gpu.enabled=true -
コントローラ構成ファイル(
controller-info.xml):<gpu-enabled>true</gpu-enabled> -
環境変数:
APPDYNAMICS_MACHINE_AGENT_GPU_ENABLED=true
-
-
GPU オペレータで組み込み DCGM エクスポータを無効にします。デフォルトでは、NVIDIA GPU Operator は独自の DCGM エクスポータを展開します。ただし、適切な構成に必要な
hostPID: trueおよびinternalTrafficPolicy: Localのサポートはありません。次のコマンドを使用して、組み込みの DCGM エクスポータを無効にします。-
GPU オペレータがインストールされていない場合:
helm install gpu-operator nvidia/gpu-operator \ -n gpu-operator --create-namespace \ --set dcgmExporter.enabled=false \ --wait -
GPU オペレータがすでにインストールされている場合:
helm upgrade --install gpu-operator nvidia/gpu-operator \ -n gpu-operator \ --set dcgmExporter.enabled=false \ --reuse-values \ --wait
-