GPU モニタリングの構成

GPU モニタリングを有効にしてカスタマイズするには、次のシステムプロパティを設定します。

GPU モニタリングの有効化

Controller-info.xml タグ:<gpu-enabled>

システムプロパティ:-Dappdynamics.machine.agent.gpu.enabled

環境変数:APPDYNAMICS_MACHINE_AGENT_GPU_ENABLED

型:ブール値

デフォルト:false

要否:いいえ

DCGM-Exporter の構成

DCGM エクスポータは Go API を基盤とした NVIDIA DCGM 用のツールです。これにより、ユーザーは GPU のメトリックを収集し、ワークロードの動作を把握したり、クラスター内の GPU を監視したりできます。DCGM エクスポータのホストまたはドメイン名を指定するには、このプロパティを設定します。DCGM エクスポータのサービス名と DCGM エクスポータ名前空間は、Kubernetes サービス名と名前空間です。マシンエージェントは、DCGM エクスポータのバージョン 3.3.8 ~ 3.6.0 以降をサポートします。

Controller-info.xml タグ:<dcgm-exporter-service-host>

システムプロパティ:-Dappdynamics.machine.agent.dcgm.exporter.service.host

環境変数:APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_HOST

タイプ:文字列

デフォルト:""

要否:いいえ

DCGM-Exporter 名前空間の指定

DCGM-Exporter 名前空間を指定するには、次のプロパティを設定します。DCGM-Exporter 名前空間は、Kubernetes 名前空間です。

Controller-info.xml タグ:<dcgm-exporter-service-namespace>

システムプロパティ:-Dappdynamics.machine.agent.dcgm.exporter.service.namespace

環境変数:APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_NAMESPACE

タイプ:文字列

デフォルト:gpu-operator

要否:いいえ

DCGM-Exporter サービス名の指定

DCGM-Exporter サービス名を指定するには、次のプロパティを設定します。DCGM-Exporter サービス名 は、Kubernetes サービス名です。

Controller-info.xml タグ:<dcgm-exporter-service-name>

システムプロパティ:-Dappdynamics.machine.agent.dcgm.exporter.service.name

環境変数:APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_NAME

タイプ:文字列

デフォルト:nvidia-dcgm-exporter

要否:いいえ

DCGM-Exporter サービスポートの指定

DCGM-Exporter サービスポートを指定するには、次のプロパティを設定します。

Controller-info.xml タグ:<dcgm-exporter-service-port>

システムプロパティ: -Dappdynamics.machine.agent.dcgm.exporter.service.port

環境変数:APPDYNAMICS_MACHINE_AGENT_DCGM_EXPORTER_SERVICE_PORT

型:整数

デフォルト:9400

要否:いいえ

NVIDIA システム管理インターフェイスを有効にする

NVIDIA システム管理インターフェイス(nvidia-smi)を使用したメトリック収集を有効にするには、このプロパティを設定します。nvidia-smi は、NVIDIA 管理ライブラリ(NVML)を基盤とするコマンドライン ユーティリティで、NVIDIA GPU デバイスの管理と監視を支援することを目的としています。。デフォルトでは、DCGM エクスポータを使用した収集が有効になっています。

Controller-info.xml タグNA

システムプロパティ-Dappdynamics.machine.agent.gpu.collection.nvml.enabled

環境変数N/A

:boolean

デフォルト:false

必須:いいえ

Specify GPU Metrics Collection Sampling Interval

Configure this property to specify the time interval (in milliseconds) for scheduling metric collection.

Controller-info.xml tag: NA

System Property: -Dappdynamics.machine.agent.gpu.collection.sampling.interval:

Environment Variable: NA

Type: Long

Default: 30000

Required: No