異常の詳しい調査
- [アラートと対応(Alert & Respond)] > [逸脱検知(Anomaly Detection)]で、[逸脱(Anomalies)] タブを表示します。
- 異常をダブルクリックして詳細ビューを開きます。
最初は、異常の開始時間中に発生しているすべての情報がページに表示されます。異常のライフサイクルで起きた変化を後で確認するには、タイムラインに沿ってイベントをクリックします。
異常の説明確認
異常の説明では、ビジネストランザクション、選択した状態遷移イベントのシビラティ(重大度)、および上位の偏差ビジネス トランザクション メトリックに関連する異常の内容が通知されます。
この例では、次のようになります。
- ビジネストランザクション:
/r/Checkout - シビラティ(重大度):Critical
- 上位の偏差メトリック:平均応答時間
偏差メトリックは、チェックアウトの応答が遅いことが問題であることを示す平均応答時間です。
タイムラインの確認
状態遷移イベントでは、異常が [Warning] と [Critical] の状態の間を移動した瞬間がマークされます。
- この例のタイムラインは [Critical] 状態から始まり、その 30 分後に [Warning] 状態に移行します。これは 8 分間しか続きません。
- この単純な異常は [重大(Critical)] 状態から開始され、そのライフサイクルのほとんどで継続するため、最初のイベントから知っておく必要があります。
対照的に、より複雑なタイムラインで表示されるパターンは、異常を理解するのに役立ちます。たとえば、別の異常のこのタイムラインは、短い [警告(Warning)] 状態からより長い [重大(Critical)] 状態に繰り返し切り替わります。
このような場合は、いくつかの状態変更イベントを調査して、アプリケーションの問題について、状態間の遷移によってどのような手掛かりが提供されるかを確認する必要があります。
フローマップの調査
フローマップの例には、次が含まれます。
- START ラベルには、ビジネストランザクションが OrderService 階層から始まることが示されます。
- [OrderService] 階層とその多数の依存関係の間で、2 つの階層が赤色です。これらはシステムが疑わしい原因を検出した階層です。
これで、どちらの赤色の階層が異常の根本原因になっているかを特定することに重点を置くことができます。
最も疑わしい原因の調査
[上位の疑わしい原因(Top Suspected Causes)] には、ビジネストランザクションのパフォーマンス上の問題の考えられる根本原因が表示されます。異常の原因を特定するため、コールパスにおいて以下のエンティティまで遡って確認できます。
支払いサービス、注文サービスなどのサービス
データベースバックエンド、HTTP バックエンドなどのバックエンド
クロスアプリケーション
インフラストラクチャ マシン エンティティ サーバー
次の例では、ビジネストランザクション /order がエラーをスローしている理由を知る必要があります。最初の疑わしい原因は、Frontend15novaauto のフロントエンドの問題です。
疑わしい原因にカーソルを合わせると、フローマップ内の関連エンティティが強調表示されます。クリティカルパス以外のすべてがフェードアウトし、ビジネストランザクションが開始され、1 分あたりのエラー数メトリックに異常があった ApacheWebServer が Frontend15novaauto に依存していることが明らかになります。