GPU モニタリングのトラブルシューティング
| 問題 | 公開済みの原因 |
|---|---|
| UI に GPU メトリックがありません | コントローラで sim.cluster.gpu.enabled=true が設定されていません。 |
gpuMonitoringEnabled: true がクラスタエージェントの仕様にありません。 | |
| マシンエージェントの環境変数の設定が誤っています。 | |
| クロスノードメトリックの混在 | サービスに internalTrafficPolicy: Local がありません。 |
| DNS解決失敗 | マシンエージェントポッドが nvidia-dcgm-exporter.gpu-operator.svc.cluster.local を解決できない。DNS 設定の確認 |