GPU メトリック

設定が完了すると、DCGM エクスポータは自動的に GPU メトリックを収集し、サーバーダッシュボードに送信します。主要なメトリックは次のとおりです。

メトリクス説明
GPU使用率(%)GPU がアクティブにコンピューティングカーネルを実行する時間の割合。
GPUメモリ使用率(%)使用中の GPU メモリの割合(使用済み/合計 X 100)。
PCIe TxスループットGPU からホストへのアウトバウンド PCIe 帯域幅。
GPU 電力使用量(W)GPU の瞬間的な消費電力。
PCIe Rxスループットホストから GPU へのインバウンド PCIe 帯域幅。
GPU Temperature (°C)GPU の現在のコア温度。

次の GPU メトリックは、[Cluster]、[Pods]、および [Container] ダッシュボードで使用できます。

メトリクス
説明スコープ
Total GPUsクラスター内のすべてのノードで検出された GPU デバイスの合計数。クラスタ
動作する GPU の数現在ワークロードを処理している GPU の数。クラスタ
Idle GPUsクラスターに存在するアイドル状態の GPU の数(一定のしきい値の時間に使用がない場合)。クラスタ
GPU Limit (%)パーセンテージで表されるクラスター GPU の合計数(合計 GPU コンピューティング キャパシティ)。クラスタ
GPU Used (%)ポッド全体の実際の GPU 使用率の合計(クラスター GPU の合計の割合)。クラスタ
GPU Request (%)ポッドによる GPU リソース要求の合計(パーセンテージ)。クラスタ
GPU Memory Limit (%)パーセンテージで表されるクラスター GPU の合計数(合計 GPU メモリ容量)。クラスタ
GPU Memory Used (%)ポッド全体の実際の GPU メモリ使用率の合計(クラスター GPU の合計の割合)。クラスタ
GPU Memory Request (%)ポッドによる GPU メモリリソース要求の合計(パーセンテージ)。クラスタ
GPU %ポッドによって現在使用されている、使用可能な GPU コンピューティング キャパシティの割合(ノードキャパシティの合計に対して)。POD
GPU Memory %ポッドによって使用されている合計 GPU メモリの割合(合計ノードキャパシティに対して)。POD
GPU使用率(%)コンテナの GPU がコンピューティング作業をアクティブに処理していた時間の割合(合計ノードキャパシティに対して)。コンテナ
GPUメモリ使用率(%)使用中のコンテナの GPU メモリの割合(合計ノードキャパシティに対して)。コンテナ

利用可能なメトリックの完全なリストについては、「メトリックブラウザ」を参照してください。