エンドポイントパフォーマンスを使用してサービスパフォーマンスを監視する

AlexがSplunk APMのエンドポイントパフォーマンスを使用して、Buttercup Gamesのカスタマーエクスペリエンスを監視および最適化し、インシデントを未然に防ぎます。

Buttercup Games のパフォーマンスエンジニアである Alex が Splunk APM のエンドポイントパフォーマンスを使用して、Buttercup Games のカスタマーエクスペリエンスを監視および最適化し、インシデントを未然に防ぎます。今朝精算プロセスの機能強化がリリースされたため、現在、Alex は精算ワークフローに特に関心を持っています。

精算エクスペリエンスのパフォーマンスを確認するために、AlexはSplunk APMで以下の手順を踏みます:

  1. Alexが「エンドポイントパフォーマンス」カードでエンドポイントを確認する

  2. Alexが「エンドポイントパフォーマンス」でエンドポイントをソートし、フィルタリングする

  3. Alex が直近 1 時間のパフォーマンスを昨日の同じ時間と比較する

  4. AlexがTag Spotlightを使用して詳細なコンテキストを取得する

Alexが「エンドポイントパフォーマンス」カードでエンドポイントを確認する

Alex は APM で依存関係マップを開きます。Buttercup Games アプリはモノリスアーキテクチャを使用するため、依存関係マップを使用してコンポーネントサービスにドリルダウンすることはできません。そこで、Alex は [Endpoint Performance] カードを確認し、[Endpoint Performance] カードに 2 秒以上の P90 遅延を示している精算エンドポイントがあることに気づきます。

このスクリーンショットは、サービスマップでエンドポイントを持つサービスを選択したときに表示されるエンドポイントパフォーマンスカードを示しています。

Alexが「エンドポイントパフォーマンス」でエンドポイントをソートし、フィルタリングする

Alexは、「エンドポイントパフォーマンス」カードを選択して完全な「エンドポイントパフォーマンス」のページに移動し、どの精算エンドポイントに2秒以上の時間がかかっているかの詳細を確認します。

このスクリーンショットは、エンドポイントパフォーマンスのページを示しています。

「エンドポイントパフォーマンス」内で、AlexはP90レイテンシでエンドポイントをソーティングし、レイテンシが最も高いエンドポイントをすぐに確認できるようにします。

このスクリーンショットは、エンドポイントパフォーマンス内のソーティングオプションを示しています。

また、Alexは検索を使って、パスに/checkout/が含まれるエンドポイントにフィルターをかけます。

このスクリーンショットは、エンドポイントパフォーマンス内のソーティングオプションを示しています。

Alex が直近 1 時間のパフォーマンスを昨日の同じ時間と比較する

Alexは、今朝リリースがあったことを知っているため、時間のドロップダウンを「-1h」に更新し、比較に「-24h」を選択して、直近の1時間を昨日の同じ時間枠と比較できるようにします。

このスクリーンショットは、エンドポイントパフォーマンスの比較設定をハイライトしています。

Alexは、checkout/{cardId}のエンドポイントのP90レイテンシが昨日の同じ時間に比べて110%増加していることに気がつきます。

このスクリーンショットは、エンドポイントパフォーマンスの比較設定をハイライトしています。

AlexがTag Spotlightを使用して詳細なコンテキストを取得する

Alex はこのエンドポイントを選択し、Tag Spotlight の詳細を確認します。Alex は、http.status_code 503 が上位の高遅延タグであることに気付きます。Alex は Tag Spotlight でこのタグを選択して調べます。

このスクリーンショットは、エンドポイントパフォーマンスでエンドポイントを選択したときに利用できるTag Spotlightの詳細情報を示しています。

Tag Spotlight で Alex は 503 ステータスコードを見つけ、Tag Spotlight に 503 応答のフィルタを追加します。今日リリースされた最新バージョンが 503 応答の大半を占めていることがわかります。最新バージョンの 503 応答に関連する遅延を特定した後、Alex は 503 応答の原因についてチームに相談します。

概要

Alex は、エンドポイントパフォーマンスを使用してモノリス内のエンドポイントを監視しました。エンドポイントパフォーマンス内でフィルタ、ソーティング、および比較の機能を使用して、リリースの後に遅延が増加したエンドポイントを迅速に区別しました。

さらに詳しく