Trace Analyzer を使用してトレースの遅延をトラブルシューティングする
AlexがTrace Analyzerを使用して、広範な傾向から単一のトレースにいたるまでAPMのデータを調査し、トレースの遅延の原因や蔓延状況を特定します。
Buttercup Games のサイト信頼性エンジニアである Alex は、Buttercup Games の使用で遅延が発生したと数人の顧客から報告を受けました。カスタマーエクスペリエンスを積極的に改善するために、Alex は Trace Analyzer を使用して、遅延がどの程度広がっているのか判断します。
遅延がどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:
Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする
カスタマーサポートから、顧客が午前 11 時前後から遅延が発生したと報告していることが共有されました。そこで Alex は、Trace Analyzer でトレース期間ビューを選択して、顧客の報告と一致する時間範囲をフィルタリングします。
トレース期間のヒートマップを拡大する
Alexは、トレース期間ヒートマップで、トレース期間が長いトレースの割合が高くなっている期間を選択し、テーブル内のトレースをさらに絞り込みます。
サンプリングを無効化する
Alexは、 Sample Ratioとして 1:1 を選択し、条件に一致するすべてのトレースを表示できるようにします。
ヒートマップで長期間のトレースの割合が高い場所を確認する
Alex はヒートマップを使用して、顧客から報告された時間帯のトレース期間をより詳細に把握しようとします。午前 11 時 10 分のヒートマップの色が濃くなっている部分に気が付きました。これは、1 秒あたりのトレース数が多く(1 秒あたり 3~4 トレース)、トレース期間が 10 秒以上であることを示しています。
トレースのテーブルをソートして長期間のトレースを確認する
Alexは、期間の長いトレースを確認できるようにするため、トレースのテーブルを期間順に並べ替えます。
概要
完全忠実トレースによって提供される高解像度のデータを使用して、Alex は遅延の蔓延度を迅速に判断することができました。フィルタリングとトレース期間のヒートマップを使用して、Alex は長期間のトレースを迅速に分離し、エンジニアに提供して問題を隔離しました。
さらに詳しく
-
Trace Analyzer の詳細については、「Splunk APM の Trace Analyzer を使用してトレースを調査する」を参照してください。
-
Trace Analyzer のこの他の例については、Trace Analyzer を使用して問題のトラブルシューティングを実行し、根本原因を特定する を参照してください。
-
APM の主要な概念の一覧は、「Splunk APM の主要な概念」を参照してください。
-
その他の Splunk APM の例については、Examples for troubleshooting errors and monitoring application performance using Splunk APM を参照してください。