GPU メトリック
設定が完了すると、DCGM エクスポータは自動的に GPU メトリックを収集し、サーバーダッシュボードに送信します。主要なメトリックは次のとおりです。
| メトリクス | 説明 |
|---|---|
| GPU使用率(%) | GPU がアクティブにコンピューティングカーネルを実行する時間の割合。 |
| GPUメモリ使用率(%) | 使用中の GPU メモリの割合(使用済み/合計 X 100)。 |
| PCIe Txスループット | GPU からホストへのアウトバウンド PCIe 帯域幅。 |
| GPU 電力使用量(W) | GPU の瞬間的な消費電力。 |
| PCIe Rxスループット | ホストから GPU へのインバウンド PCIe 帯域幅。 |
| GPU Temperature (°C) | GPU の現在のコア温度。 |
次の GPU メトリックは、[Cluster]、[Pods]、および [Container] ダッシュボードで使用できます。
| メトリクス | 説明 | スコープ |
|---|---|---|
| Total GPUs | クラスター内のすべてのノードで検出された GPU デバイスの合計数。 | クラスタ |
| 動作する GPU の数 | 現在ワークロードを処理している GPU の数。 | クラスタ |
| Idle GPUs | クラスターに存在するアイドル状態の GPU の数(一定のしきい値の時間に使用がない場合)。 | クラスタ |
| GPU Limit (%) | パーセンテージで表されるクラスター GPU の合計数(合計 GPU コンピューティング キャパシティ)。 | クラスタ |
| GPU Used (%) | ポッド全体の実際の GPU 使用率の合計(クラスター GPU の合計の割合)。 | クラスタ |
| GPU Request (%) | ポッドによる GPU リソース要求の合計(パーセンテージ)。 | クラスタ |
| GPU Memory Limit (%) | パーセンテージで表されるクラスター GPU の合計数(合計 GPU メモリ容量)。 | クラスタ |
| GPU Memory Used (%) | ポッド全体の実際の GPU メモリ使用率の合計(クラスター GPU の合計の割合)。 | クラスタ |
| GPU Memory Request (%) | ポッドによる GPU メモリリソース要求の合計(パーセンテージ)。 | クラスタ |
| GPU % | ポッドによって現在使用されている、使用可能な GPU コンピューティング キャパシティの割合(ノードキャパシティの合計に対して)。 | POD |
| GPU Memory % | ポッドによって使用されている合計 GPU メモリの割合(合計ノードキャパシティに対して)。 | POD |
| GPU使用率(%) | コンテナの GPU がコンピューティング作業をアクティブに処理していた時間の割合(合計ノードキャパシティに対して)。 | コンテナ |
| GPUメモリ使用率(%) | 使用中のコンテナの GPU メモリの割合(合計ノードキャパシティに対して)。 | コンテナ |
利用可能なメトリックの完全なリストについては、「メトリックブラウザ」を参照してください。