Configure the Prometheus receiver to collect NVIDIA GPU metrics
Learn how to configure and activate the component for Nvidia GPU.
You can monitor the performance of NVIDIA GPUs by configuring your Kubernetes cluster to send NVIDIA GPU metrics to Splunk Observability Cloud. This solution uses the Prometheus receiver to collect metrics from the NVIDIA DCGM Exporter, which can be installed independently or as part of the NVIDIA GPU Operator.
For more information on these NVIDIA components, see the NVIDIA DCGM Exporter GitHub repository and About the NVIDIA GPU Operator in the NVIDIA documentation. The NVIDIA DCGM Exporter exposes a /metrics endpoint that publishes Prometheus-compatible metrics.
Complete the following steps to collect metrics from NVIDIA GPUs.
To install the NVIDIA DCGM Exporter using Helm, see Quickstart on Kubernetes in the NVIDIA DCGM Exporter GitHub repository.
- To install the NVIDIA DCGM Exporter as part of the NVIDIA GPU Operator, see Installing the NVIDIA GPU Operator in the NVIDIA documentation.
Configuration settings
Learn about the configuration settings for the Prometheus receiver.
To view the configuration options for the Prometheus receiver, see Settings.
メトリクス
Nvidia GPU で使用可能なモニタリングメトリクスについて確認します。
| メトリクス名 | タイプ | ユニット(Units) | 説明 |
|---|---|---|---|
DCGM_FI_DEV_SM_CLOCK | gauge | MHz | SM クロック周波数。 |
DCGM_FI_DEV_MEM_CLOCK | gauge | MHz | メモリクロック周波数。 |
DCGM_FI_DEV_MEMORY_TEMP | gauge | C | メモリ温度。 |
DCGM_FI_DEV_GPU_TEMP | gauge | C | GPU 温度。 |
DCGM_FI_DEV_POWER_USAGE | gauge | W | 給電規格。 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | counter | mJ | 起動してからの総エネルギー消費量。 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | counter | count | PCIe 再試行の総回数。 |
DCGM_FI_DEV_GPU_UTIL | gauge | percent | GPU 使用率 |
DCGM_FI_DEV_MEM_COPY_UTIL | gauge | percent | メモリ使用率 |
DCGM_FI_DEV_ENC_UTIL | gauge | percent | エンコーダ使用率。 |
DCGM_FI_DEV_DEC_UTIL | gauge | percent | デコーダ使用率。 |
DCGM_FI_DEV_FB_FREE | gauge | MiB | フレームバッファの空きメモリ。 |
DCGM_FI_DEV_FB_USED | gauge | MiB | 使用中のフレームバッファメモリ。 |
DCGM_FI_PROF_PCIE_TX_BYTES | counter | bytes | ヘッダーとペイロードの両方を含むアクティブな PCIe TX データのバイト数。 |
DCGM_FI_PROF_PCIE_RX_BYTES | counter | bytes | ヘッダーとペイロードの両方を含むアクティブな PCIe RX データのバイト数。 |
属性
NVIDIA GPU で使用可能な属性について確認します。
NVIDIA GPU では、次の属性を使用できます。
| Attribute name | タイプ | 説明 | 値の例 |
|---|---|---|---|
app | 文字列 | GPU に接続されているアプリケーションの名称。 | nvidia-dcgm-exporter |
DCGM_FI_DRIVER_VERSION | 文字列 | システムにインストールされている NVIDIA DCGM ドライバのバージョン。 | 570.124.06 |
device | 文字列 | 特定の NVIDIA デバイスまたは GPU インスタンスの識別子。 | nvidia0 |
gpu | 数 | システム内の GPU のインデックス番号。 | 0 |
modelName | 文字列 | NVIDIA GPU の商用モデル。 | NVIDIA A10G |
UUID | 文字列 | GPU に割り当てられた固有識別情報。 | GPU-3ca2f6af-10d6-30a5-b45b-158fc83e6d33 |
Next steps
How to monitor your AI components after you set up Observability for AI.
After you set up data collection from supported AI components to Splunk Observability Cloud, the data populates built-in experiences that you can use to monitor and troubleshoot your AI components.
| Monitoring tool | Use this tool to | Link to documentation |
|---|---|---|
| Built-in navigators | Orient and explore different layers of your AI tech stack. | |
| Built-in dashboards | Assess service, endpoint, and system health at a glance. | |
| Splunk Application Performance Monitoring (APM) service map and trace view | View all of your LLM service dependency graphs and user interactions in the service map or trace view. |