Splunk APM のサービスマップを使用してエラーの根本原因を調査する

この Splunk APMのシナリオでは、APMのサービスマップを使用して根本原因エラー率を調査する方法を説明します。

Buttercup Gamesのサイト信頼性エンジニアであるKaiは、Buttercup Gamesのウェブサイトでゲームを購入する際に「無効なリクエスト」のエラーが発生したという複数の顧客からのチケットを受け取っています。

無効なリクエストのエラーレポートをトラブルシュートするために、Kaiは以下の手順を踏みます:

  1. Kaiがサービスマップを開く

  2. Kaiが根本原因エラーを持つサービスを探る

  3. Kaiがサービスを選択して詳細情報を収集する

  4. Kaiが問題のあるエンドポイントのTag Spotlightへのリンクをカスタマーチケットに追加する

Kaiがサービスマップを開く

エラーの原因となっているダウンストリームサービスを調査するため、Kai は「サービスマップ」を検索し、検索結果のナビゲーション項目を選択して APM のサービスマップに直接移動します。そして、Splunk APM にインストルメントされているサービスのノードと依存関係を含むリアルタイムのサービスマップに目を通します。

このアニメーションは、Kaiが検索を使ってサービスマップを検索し、検索結果のナビゲーション項目を選択する様子を示しています。

Kaiが根本原因エラーを持つサービスを探る

サービスマップは、赤色で根本原因のエラー率を示しています。Kai は、[paymentservice] ノードに赤い点があり、[checkoutservice] ノードと [paymentservice] ノードから出ている依存関係の矢印が赤であることに気づきます。

このスクリーンショットは、Buttercup Gamesウェブサイトのサービスマップビューを示すもので、根本原因エラーがあるノードが赤くハイライトされています。

Kaiがサービスを選択して詳細情報を収集する

[paymentservice] ノードを選択して、[Tag Spotlight] サイドバーでエラー率が上位のエンドポイントを見つけます。Kai は、次のスクリーンショットで示されるように、すべてのエラーが 1 つのエンドポイントで発生していることに気づきます。

このスクリーンショットはTag Spotlightカードを示すもので、エンドポイントのデータに最上位のエラー率と最も高いレイテンシが表示されています。

概要

Kai はサービスマップを使用して、根本原因エラー率が高いサービスをすばやく隔離し、顧客が報告している無効なリクエストのエラーの原因である可能性が高いサービスを特定しました。Kaiは、さらなるトラブルシューティングのために、この情報をサービスオーナーと共有しました。

さらに詳しく

Splunk APM のサービスマップの詳細については、「サービスマップでサービス間の依存関係を表示する」を参照してください。

アプリケーションのメトリックとトレースを Splunk Observability Cloud に送信するためのアプリケーションのインストルメンテーション方法については、「バックエンドアプリケーションをインストルメンテーションして、スパンを Splunk APM に送信する」を参照してください。