DCGM エクスポータの構成(スタンドアロンノード)
-
次のフラグを使用して、コントローラアカウントレベルで GPU モニタリングを有効にします。
sim.cluster.gpu.enabled=true -
次のいずれかの方法を使用して、マシンエージェントで GPU モニタリングを有効にします。
-
システムプロパティ:
-Dappdynamics.machine.agent.gpu.enabled=true -
コントローラ構成ファイル(
controller-info.xml):<gpu-enabled>true</gpu-enabled> -
環境変数:
APPDYNAMICS_MACHINE_AGENT_GPU_ENABLED=true
-
-
デフォルトでは、DCGM エクスポータが GPU メトリックの収集に使用されます。次のいずれかを使用して、ホストとポートを指定し、エクスポータエンドポイントをカスタマイズまたはオーバーライドします。
-
システムプロパティ:
-Dappdynamics.machine.agent.dcgm.exporter.service.host=<host> -Dappdynamics.machine.agent.dcgm.exporter.service.port=<port> # Default: 9400 -
コントローラ構成ファイル(
controller-info.xml):<dcgm-exporter-service-host><host></dcgm-exporter-service-host> <dcgm-exporter-service-port><port></dcgm-exporter-service-port> <!-- Default: 9400 --> -
環境変数:
export APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_HOST=<host> export APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_PORT=<port> # Default: 9400
-
-
Docker バージョン 19.03 以降(NVIDIA Container Runtime で構成)または containerd がインストールされ、構成されていることを確認します。
-
次のコマンドを使用して、NVIDIA Container Toolkit のインストールと設定を行います。
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \ | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \ | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker
DCGM エクスポータをスタンドアロンコンテナとして展開するには、次の手順を実行します。