Splunk APM のサービスマップを使用してエラーの根本原因を調査する
この Splunk APMのシナリオでは、APMのサービスマップを使用して根本原因エラー率を調査する方法を説明します。
Buttercup Gamesのサイト信頼性エンジニアであるKaiは、Buttercup Gamesのウェブサイトでゲームを購入する際に「無効なリクエスト」のエラーが発生したという複数の顧客からのチケットを受け取っています。
無効なリクエストのエラーレポートをトラブルシュートするために、Kaiは以下の手順を踏みます:
Kaiがサービスマップを開く
エラーの原因となっているダウンストリームサービスを調査するため、Kai は「サービスマップ」を検索し、検索結果のナビゲーション項目を選択して APM のサービスマップに直接移動します。そして、Splunk APM にインストルメントされているサービスのノードと依存関係を含むリアルタイムのサービスマップに目を通します。
Kaiが根本原因エラーを持つサービスを探る
サービスマップは、赤色で根本原因のエラー率を示しています。Kai は、[paymentservice] ノードに赤い点があり、[checkoutservice] ノードと [paymentservice] ノードから出ている依存関係の矢印が赤であることに気づきます。
Kaiがサービスを選択して詳細情報を収集する
[paymentservice] ノードを選択して、[Tag Spotlight] サイドバーでエラー率が上位のエンドポイントを見つけます。Kai は、次のスクリーンショットで示されるように、すべてのエラーが 1 つのエンドポイントで発生していることに気づきます。
Kaiが問題のあるエンドポイントのTag Spotlightへのリンクをカスタマーチケットに追加する
Kai は、このエンドポイントの Tag Spotlight へのリンクを取得し、カスタマーチケットに追加するメモにリンクを含めて、このエンドポイントをエラーの根本原因として特定します。チケットを決済サービスのオーナーに送信して、さらなるトラブルシューティングを促します。
概要
Kai はサービスマップを使用して、根本原因エラー率が高いサービスをすばやく隔離し、顧客が報告している無効なリクエストのエラーの原因である可能性が高いサービスを特定しました。Kaiは、さらなるトラブルシューティングのために、この情報をサービスオーナーと共有しました。
さらに詳しく
Splunk APM のサービスマップの詳細については、「サービスマップでサービス間の依存関係を表示する」を参照してください。
アプリケーションのメトリックとトレースを Splunk Observability Cloud に送信するためのアプリケーションのインストルメンテーション方法については、「バックエンドアプリケーションをインストルメンテーションして、スパンを Splunk APM に送信する」を参照してください。