Collector の内部メトリクス
Collector の内部メトリクス。
Collector の内部メトリクスの完全なリストとその用途を参照してください。
内部メトリクスを使用して Collectorインスタンスを監視する
Collector の内部メトリクスを使用して Collector の動作を監視し、パフォーマンスの問題を特定します。
データフローを監視し、データ損失を検出する
データが正しく流れていることを確認するには、Collectorによって取り込まれたデータに関する情報には otelcol_receiver_accepted_spans、otelcol_receiver_accepted_metric_points、および otelcol_receiver_accepted_logs メトリクスを使用し、エクスポートされたデータに関する情報には otecol_exporter_sent_spans、otelcol_exporter_sent_metric_points、および otelcol_exporter_sent_logs を使用します。
otelcol_processor_dropped_spans、 otelcol_processor_dropped_metric_points、 otelcol_processor_dropped_logs を使用して、データ損失を検出します。小さな損失を障害と見なすべきではありません。要件に応じて、アラートを出す前に最小限の時間ウィンドウを設定します。
受信失敗の検出
otelcol_receiver_refused_spans、otelcol_receiver_refused_metric_points、otelcol_receiver_refused_logs のレートが維持されている場合は、クライアントに返されるエラーが多すぎることを示しています。デプロイメントやクライアントのレジリエンスによっては、クライアント側のデータ損失を示している場合があります
otelcol_exporter_send_failed_spans、otelcol_exporter_send_failed_metric_points、otelcol_exporter_send_failed_logs のレートが維持されている場合は、Collector が想定どおりにデータをエクスポートできないことを示しています。再試行される場合もあるため、必ずしもデータ損失を意味するわけではありませんが、失敗率が高い場合は、データを受信するネットワークやバックエンドに問題がある可能性があります。
キューの長さの制御
Collectorの再試行メカニズムとして、キュー再試行メカニズム(ほとんどのエクスポーターで使用可能)を使用します:
キューの容量が十分かどうかを確認するには、再試行キューの容量をバッ チ単位で示す otelcol_exporter_queue_capacity と、再試行キューの現在のサイズを示す otelcol_exporter_queue_size を比較します。
otelcol_exporter_enqueue_failed_spans、otelcol_exporter_enqueue_failed_metric_points、otelcol_exporter_enqueue_failed_log_records は、送信キューへの追加に失敗したスパン、メトリクスポイント、ログレコードの数を示します。キューがいっぱいの場合は、送信レートを下げるか、Collector を水平方向にスケーリングします。
キュー再試行メカニズムは、監視のためのロギングもサポートしています。「sending_queue がいっぱいのためデータを破棄します」などのメッセージがないか、ログを確認してください。
Collectorの内部メトリクスのリスト
これらは、Collector の内部メトリクスです。
|
メトリクス名 |
メトリクスの説明 |
|---|---|
|
|
送信キューに追加できなかったログレコード数 |
|
|
送信キューへの追加に失敗したメトリクスポイントの数 |
|
|
送信キューへの追加に失敗したスパンの数 |
|
|
エクスポーターキューの容量 |
|
|
再試行キューの現在のサイズ(バッチ単位) |
|
|
送信先への送信に失敗したログレコードの数 |
|
|
宛先への送信に失敗したメトリクスの数 |
|
|
送信先に正常に送信されたログレコードの数 |
|
|
宛先への送信に成功したメトリクスポイントの数 |
|
|
宛先への送信に成功したスパンの数 |
|
|
受信した名前空間追加イベントの数 |
|
|
受信した名前空間更新イベントの数 |
|
|
受信したポッド追加イベントの数 |
|
|
受信したポッド削除イベントの数 |
|
|
ポッド情報を含むテーブルのサイズ |
|
|
CPUユーザーとシステムの合計時間(秒単位) |
|
|
総物理メモリ(常駐設定のサイズ) |
|
|
割り当てられたヒープオブジェクトのバイト数 |
|
|
割り当てられたオブジェクトの合計バイト数 |
|
|
ヒープオブジェクトに割り当てられた累積バイト数 |
|
|
プロセスのアップタイム |
|
|
パイプラインの次のコンポーネントに正常にプッシュされたログレコードの数 |
|
|
パイプラインの次のコンポーネントに正常にプッシュされたメトリクスポイントの数 |
|
|
パイプラインの次のコンポーネントに正常にプッシュされたスパンの数 |
|
|
バッチ内のユニットの数 |
|
|
バッチヒストグラムバケット内のユニットの数 |
|
|
バッチヒストグラムカウントのユニット数 |
|
|
バッチヒストグラム合計のユニットの数 |
|
|
タイムアウトトリガーのためにバッチが送信された回数 |
|
|
ドロップされたログレコードの数 |
|
|
ドロップされたメトリクスポイントの数 |
|
|
ドロップされたスパンの数 |
|
|
ログから抽出されたグループの分布 |
|
|
バケットヒストグラムから抽出されたグループの分布 |
|
|
対数ヒストグラムで抽出されたグループの分布 |
|
|
対数和ヒストグラムで抽出されたグループの分布 |
|
|
拒否されたログレコードの数 |
|
|
拒否されたメトリクスポイントの数 |
|
|
拒否されたスパンの数 |
|
|
パイプラインに正常にプッシュされたログレコードの数 |
|
|
パイプラインへのプッシュに成功したメトリクスポイントの数 |
|
|
パイプラインへのプッシュに成功したスパンの数 |
|
|
パイプラインにプッシュできなかったログレコードの数 |
|
|
パイプラインにプッシュできなかったメトリクスポイントの数 |
|
|
パイプラインに押し込められなかったスパンの数 |
|
|
スクレイピングできなかったメトリクスポイントの数 |
|
|
スクレイピングに成功したメトリクスポイントの数 |