GPU モニタリングのトラブルシューティング
| 問題 | 公開済みの原因 |
|---|---|
| UI に GPU メトリックがありません | sim.cluster.gpu.enabled=true がコントローラで設定されていません。 |
gpuMonitoringEnabled: true がクラスターエージェントの仕様にありません。 |
|
| マシンエージェントの環境変数の設定が誤っています。 | |
| クロスノードメトリックの混在 | サービスに internalTrafficPolicy: Local がありません。 |
| DNS解決失敗 | マシンエージェント Pod が nvidia-dcgm-exporter.gpu-operator.svc.cluster.local を解決できません。DNS 設定の確認 |