Tag Spotlight を使用してエラーの根本原因を見つける

この Splunk APM の例では、APM の Tag Spotlight を使用して根本原因エラーを見つける方法を説明します。

Deepu はサイト信頼性エンジニアの Kai から通知を受け取りました。この通知には、/PaymentService/Charge エンドポイントの高い根本原因エラー率が、お客様の Buttercup Games ウェブサイトでのショッピングを妨げているとあります。通知には、Splunk APM サービスマップ上のエンドポイントへのリンクも含まれています。

この問題を解決するために、Deepuは次の手順を踏みます:

  1. DeepuがTag Spotlightを開き、影響を受けるサービスを選択する

  2. DeepuがTag Spotlightでエラーに関連するタグを確認する

  3. Deepuは、バージョンタグによってエラー数が異なることに気が付く

  4. Deepuがトレースの例を開く

  5. DeepuがSplunk Log Observerに切り替えて、さらなるトラブルシューティングを実行する

DeepuがTag Spotlightを開き、影響を受けるサービスを選択する

Deepu は検索を使って Tag Spotlight を検索し、ナビゲーションの結果を選択して Tag Spotlight に移動します。そして決済サービスを選択します。

このアニメーションは、ユーザーがTag Spotlightを検索し、Tag Spotlightフィルターで決済サービスを選択する様子を示しています。

DeepuがTag Spotlightでエラーに関連するタグを確認する

Deepuは、決済サービスの各インデックス済みタグに関連するリクエストとエラーを精査します。

このスクリーンショットは、決済サービスのTag Spotlightビューを示しています。

Deepuは、バージョンタグによってエラー数が異なることに気が付く

Deepu は、[version] タグを除くすべてのタグ値でエラーが均等に分散していることに気づきます。すべてのエラーは、サービスの最近のコードリリースであるバージョン 350.10 で発生しています。Deepu は以前のリリースのバージョン 350.9 にロールバックして、エンジニアが問題を解決するのを待ちながら、サイトを実行し続けます。

このスクリーンショットは、Tag Spotlightのインデックス済みバージョンタグに基づくデータを示しています。

Deepuがトレースの例を開く

Deepu は、/PaymentService/Charge エンドポイントのバージョン 350.10 のコードに調査を絞り込み、[Request/Errors] のチャートを選択してトレースの例を取得し、エラーの内容を確認します。

このスクリーンショットは、Tag Spotlightで見たエラーを含むトレースの例を示しています。

DeepuがSplunk Log Observerに切り替えて、さらなるトラブルシューティングを実行する

Deepu は Splunk APM で Related Content を有効にしているため、[Logs for trace] を選択して Splunk Log Observer に切り替え、さらなるトラブルシューティングを実行できます。

このスクリーンショットはトレースビューを示すもので、トレースのログを確認するオプションが表示されています。

概要

Deepu は Tag Spotlight を使用して、顧客の Buttercup Games ウェブサイトでのショッピングを妨げているエラーの原因として、最近のコードリリースを迅速に分離しました。Tag Spotlight 内のトレース例へのリンクを使用して、トレース例とそれに対応するログにすばやく移動し、さらなるトラブルシューティングを実行します。

さらに詳しく