GPU モニタリング

Splunk AppDynamics GPU モニタリングは、インフラインフラストラクチャ全体の NVIDIA GPU の正常性とパフォーマンスを包括的に可視化します。AppDynamics マシンエージェントおよびクラスタエージェントを統合することで、ノードレベルとクラスタ全体の両方のメトリック収集が可能になります。これにより、GPU 対応ワークロードの最適なリソース使用率、効率的なトラブルシューティング、およびパフォーマンスの向上が保証されます。

GPU モニタリングは、最適なパフォーマンスおよび効率的なリソースの使用の維持、AI/ML などの高度なワークロードをサポートするために不可欠です。主なメリットは以下のとおりです。
  1. リソース使用率の最適化:GPU コンピューティングとメモリの使用状況をモニターして、ワークロードのサイズを適切に設定し、キャパシティを効果的に計画します。

  2. 熱および電力管理の強化:温度と消費電力を追跡して、過熱を防ぎ、エネルギー効率を保ちます。

  3. GPU とアプリケーションメトリックを関連付け:GPU のパフォーマンスをアプリケーションレベルのメトリックとリンクさせ、ボトルネックを切り分けて解決します。

  4. GPU 効率に関するインサイトの取得:コンピューティング、グラフィックス、およびスループットメトリックを測定して、AI/ML トレーニングおよび推論タスクの GPU パフォーマンスを評価します。

  5. トラブルシューティングを高速化:テレメトリをアプリケーショントレースと関連付けることで、GPU 関連のハードウェアまたはワークロードの問題を迅速に特定して解決します。

Splunk AppDynamics は、GPU 固有のテレメトリをキャプチャするための 2 つのコアコンポーネントを提供します。
  1. マシンエージェント(ノードレベルのモニタリング)

  2. クラスタエージェント(クラスタレベルのモニタリング)

マシンエージェント(ノードレベルのモニタリング)

  • NVIDIA SMI または DCGM エクスポータを介してメトリクスを収集します。

  • GPU 対応ホストにスタンドアロンエージェントとして、または Kubernetes 環境に Infraviz DaemonSet として展開されます。

  • GPU 使用率、メモリ使用率、消費電力、温度、PCIe スループットを追跡します。

クラスタエージェント(クラスタレベルのモニタリング)

  • Kubernetes 環境のクラスタ、ポッド、およびコンテナレベルで GPU メトリクスを集約します。

  • 使用率、メモリ使用量、リクエストに対するメトリックの制限などのインサイトをクラスタダッシュボードに直接提供します。

  • クラスタ全体のビューでノードレベルのデータを補完し、包括的なモニタリングを実現します。