DCGM エクスポータの構成(スタンドアロンノード)

DCGM エクスポータを設定する前に、次の前提条件を満たしていることを確認します。
  • 次のフラグを使用して、コントローラアカウントレベルで GPU モニタリングを有効にします。
    sim.cluster.gpu.enabled=true
    
  • 次のいずれかの方法を使用して、マシンエージェントで GPU モニタリングを有効にします。

    • システムプロパティ:
      -Dappdynamics.machine.agent.gpu.enabled=true
    • コントローラ構成ファイル(controller-info.xml):
      <gpu-enabled>true</gpu-enabled>
    • 環境変数:
      APPDYNAMICS_MACHINE_AGENT_GPU_ENABLED=true
  • デフォルトでは、DCGM エクスポータが GPU メトリックの収集に使用されます。次のいずれかを使用して、ホストとポートを指定し、エクスポータエンドポイントをカスタマイズまたはオーバーライドします。
    • システムプロパティ:
      -Dappdynamics.machine.agent.dcgm.exporter.service.host=<host> -Dappdynamics.machine.agent.dcgm.exporter.service.port=<port>  # Default: 9400
    • コントローラ構成ファイル(controller-info.xml):
      <dcgm-exporter-service-host><host></dcgm-exporter-service-host>
      <dcgm-exporter-service-port><port></dcgm-exporter-service-port>  <!-- Default: 9400 -->
    • 環境変数:
      export APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_HOST=<host>
      export APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_PORT=<port>  # Default: 9400
  • Docker バージョン 19.03 以降(NVIDIA Container Runtime で構成)または containerd がインストールされ、構成されていることを確認します。

  • 次のコマンドを使用して、NVIDIA Container Toolkit のインストールと設定を行います。
    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
      | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
      | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    sudo apt-get update
    sudo apt-get install -y nvidia-container-toolkit
    sudo nvidia-ctk runtime configure --runtime=docker
    sudo systemctl restart docker

DCGM エクスポータをスタンドアロンコンテナとして展開するには、次の手順を実行します。

  1. 次のコマンド例を使用して、エクスポータイメージをプルします。3.3.8 ~ 3.6.x 以降のイメージバージョンを使用していることを確認してください。
    docker pull nvcr.io/nvidia/k8s/dcgm-exporter:4.2.3-4.1.1-ubuntu22.04
  2. エクスポータをコンテナとして実行します。また、ポート 9400 を公開して GPU アクセスを許可します。次のコマンドを使用します。
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:4.2.3-4.1.1-ubuntu22.04
  3. 次のコマンドを使用して、メトリックエンドポイントをクエリし、エクスポータが実行中でアクセス可能であることを確認します。
    curl http://localhost:9400/metrics