AWS Cloudwatchポーリングのトラブルシューティング

AWS Cloudwatchのポーリングに関連する問題のトラブルシューティング。

AWS Cloudwatchのポーリング関連の問題が発生した場合は、以下のトピックを参照してください。

注:AWS 統合のトラブルシュート」も参照してください。

メトリクスポーリング遅延の計算

Splunk Observability Cloud の CloudWatch データポイント同期は 2 つのフェーズで構成されています。

  1. list-metrics APIの使用による時系列同期

    • 過去 3 時間以内にアクティブになったすべての時系列(TS)を同期し、時系列情報を Splunk Observability Cloud の内部ストレージに保存します。

    • この同期は、各 AWS 統合について 15 分ごとに実行されます。この間隔をユーザが設定することはできません。

  2. get-metric-data APIの使用によるデータポイントの同期

  • Splunk Observability Cloud の内部ストレージに保存されているすべての時系列のすべてのデータポイントを同期します。

  • この同期は、AWS 統合の設定に応じて 1 ~ 10 分ごとに実行されます。この間隔は設定できます。

    注意: Splunk Observability Cloud が特定の時系列から 5 時間にわたってデータポイントを取得しなかった場合、その TS は非アクティブとみなされ、Splunk Observability Cloud の内部ストレージから削除されます。

遅延計算の例

3分のポーリングレートを持つAWSインテグレーションでは、以下の遅延が予想されます:

  • 疎なまたは新しいメトリクスの場合:15分(TS同期)+ 3分(データポイント同期)+ 2-3分(CloudWatchの平均遅延) ->合計遅延 = 20-21分。

  • 既知の時系列からのデータポイントの場合(TS同期不要):3分(データポイント同期)+ 2-3分(CloudWatchの平均遅延) ->合計遅延 = 5-6分。

稀なメトリクスに対するペナルティ

特定の稀なメトリクスのリクエスト数を最小化し、CloudWatch APIコストを削減するために、Splunk Observability Cloudは次の2つの条件を満たす場合、メトリクスを30分間無視します:

  • get-metric-dataレスポンスには、指定された指標のデータポイントが含まれていません。

  • Splunk Observability Cloudは、最大1時間のルックバックウィンドウを使用して、その特定のメトリクスのデータポイントを取得しようとしました。

稀なメトリクスラグの例

次の 2 つのデータポイントを考えてみましょう。

データポイントのタイムスタンプ

ラグ

インジェストタイムスタンプ

04:39

5分

04:44

05:42

37分

06:19

次のようなことが起きています:

  • 04:44に Splunk Observability Cloudは04:39のデータポイントを取得します。

  • 04:47に、3分間のポーリングレートの後で、Splunk Observability Cloudはこのメトリクスの新しいデータポイントを取得しません。

  • 05:46 に、Splunk Observability Cloud が最大ルックバックウィンドウを使用します。CloudWatch の内部遅延により、このメトリックにはまだ新しいデータポイントがないため、メトリックは 30 分間無視されます。

  • 06:16になっても、この指標は無視されたままです。

  • 06:19にペナルティが解除され、Splunk Observability Cloudは05:42のデータポイントを取得します。

注: 設計上、同期の開始時刻は微妙にずれる可能性があり、3分間隔に揃わないこともあります。