Trace Analyzer を使用してトレースの遅延をトラブルシューティングする

AlexがTrace Analyzerを使用して、広範な傾向から単一のトレースにいたるまでAPMのデータを調査し、トレースの遅延の原因や蔓延状況を特定します。

Buttercup Games のサイト信頼性エンジニアである Alex は、Buttercup Games の使用で遅延が発生したと数人の顧客から報告を受けました。カスタマーエクスペリエンスを積極的に改善するために、Alex は Trace Analyzer を使用して、遅延がどの程度広がっているのか判断します。

遅延がどの程度蔓延しているかを判断するため、Alexは以下の手順を踏みます:

  1. Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする

  2. トレース期間のヒートマップを拡大する

  3. サンプリングを無効化する

  4. ヒートマップで長期間のトレースの割合が高い場所を確認する

  5. トレースのテーブルをソートして長期間のトレースを確認する

Trace Analyzerのトレース期間ビューを使用して時間範囲をフィルタリングする

カスタマーサポートから、顧客が午前 11 時前後から遅延が発生したと報告していることが共有されました。そこで Alex は、Trace Analyzer でトレース期間ビューを選択して、顧客の報告と一致する時間範囲をフィルタリングします。

このgifは、Trace Analyzerチャートにおけるトレース期間の選択と時間の選択を示しています。

トレース期間のヒートマップを拡大する

Alexは、トレース期間ヒートマップで、トレース期間が長いトレースの割合が高くなっている期間を選択し、テーブル内のトレースをさらに絞り込みます。

このgifは、Trace Analyzerのヒートマップでの選択範囲へのフィルタリングを示しています。

サンプリングを無効化する

Alexは、 Sample Ratioとして 1:1 を選択し、条件に一致するすべてのトレースを表示できるようにします。

このgifは、Trace Analyzerチャートでのサンプリング比率の選択を示しています。

ヒートマップで長期間のトレースの割合が高い場所を確認する

Alex はヒートマップを使用して、顧客から報告された時間帯のトレース期間をより詳細に把握しようとします。午前 11 時 10 分のヒートマップの色が濃くなっている部分に気が付きました。これは、1 秒あたりのトレース数が多く(1 秒あたり 3~4 トレース)、トレース期間が 10 秒以上であることを示しています。

このスクリーンショットは午前11時10分のヒートマップを示しており、3~4トレース/秒、トレース期間が10秒以上になっています

トレースのテーブルをソートして長期間のトレースを確認する

Alexは、期間の長いトレースを確認できるようにするため、トレースのテーブルを期間順に並べ替えます。

このgifは、トレーステーブルを期間でソートする様子を示しています

概要

完全忠実トレースによって提供される高解像度のデータを使用して、Alex は遅延の蔓延度を迅速に判断することができました。フィルタリングとトレース期間のヒートマップを使用して、Alex は長期間のトレースを迅速に分離し、エンジニアに提供して問題を隔離しました。

さらに詳しく