異常の詳しい調査

  • [アラートと対応(Alert & Respond)] > [逸脱検知(Anomaly Detection)]で、[逸脱(Anomalies)] タブを表示します。
  • 異常をダブルクリックして詳細ビューを開きます。

最初は、異常の開始時間中に発生しているすべての情報がページに表示されます。異常のライフサイクルで起きた変化を後で確認するには、タイムラインに沿ってイベントをクリックします。

異常の説明確認

異常の説明では、ビジネストランザクション、選択した状態遷移イベントのシビラティ(重大度)、および上位の偏差ビジネス トランザクション メトリックに関連する異常の内容が通知されます。

この例では、次のようになります。

  • ビジネストランザクション:/r/Checkout
  • シビラティ(重大度):Critical
  • 上位の偏差メトリック:平均応答時間

偏差メトリックは、チェックアウトの応答が遅いことが問題であることを示す平均応答時間です。

タイムラインの確認

状態遷移イベントでは、異常が [Warning] と [Critical] の状態の間を移動した瞬間がマークされます。

  • この例のタイムラインは [Critical] 状態から始まり、その 30 分後に [Warning] 状態に移行します。これは 8 分間しか続きません。
  • この単純な異常は [重大(Critical)] 状態から開始され、そのライフサイクルのほとんどで継続するため、最初のイベントから知っておく必要があります。

重大から警告のタイムライン

対照的に、より複雑なタイムラインで表示されるパターンは、異常を理解するのに役立ちます。たとえば、別の異常のこのタイムラインは、短い [警告(Warning)] 状態からより長い [重大(Critical)] 状態に繰り返し切り替わります。

このような場合は、いくつかの状態変更イベントを調査して、アプリケーションの問題について、状態間の遷移によってどのような手掛かりが提供されるかを確認する必要があります。

フローマップの調査

フローマップの例には、次が含まれます。

  • START ラベルには、ビジネストランザクションが OrderService 階層から始まることが示されます。
  • [OrderService] 階層とその多数の依存関係の間で、2 つの階層が赤色です。これらはシステムが疑わしい原因を検出した階層です。

これで、どちらの赤色の階層が異常の根本原因になっているかを特定することに重点を置くことができます。

注: 逸脱検知フローマップは異なっています。Splunk AppDynamics には 2 種類のフローマップがあります。(このページで説明されている)逸脱検知と自動 RCA フローマップ、およびビジネス トランザクション フロー マップです。これらのフローマップはそれぞれ、偏差または異常なエンティティを独自の方法で検出します。そのため、以下のようないくつかの違いがあります。2 つのフローマップでは、同じエンティティに対して異なる正常性ステータス(色で表現)が表示されることがあります。これは、それぞれが独自のアルゴリズムを使用して正常性を判断するためです。ビジネス トランザクション フロー マップに保存されたエンティティの配置または非表示に関するユーザー設定は、逸脱検知フローマップには影響しません。ティア間の一部のリンクは、1 つのタイプのフローマップに表示されますが、他のタイプでは非表示になります。たとえば、データがティアやティア間をフローしていない場合は、次のようになります。ビジネス トランザクション フロー マップによって、「非アクティブ」ティアまたはリンクとして非表示にされる場合があります。逸脱検知フローマップは、アプリケーショントポロジを完全に示すために表示される場合があります。

最も疑わしい原因の調査

[上位の疑わしい原因(Top Suspected Causes)] には、ビジネストランザクションのパフォーマンス上の問題の考えられる根本原因が表示されます。異常の原因を特定するため、コールパスにおいて以下のエンティティまで遡って確認できます。

  • 支払いサービス、注文サービスなどのサービス

  • データベースバックエンド、HTTP バックエンドなどのバックエンド

  • クロスアプリケーション

  • インフラストラクチャ マシン エンティティ サーバー

警告: 現在、[上位の疑わしい原因(Top Suspected Causes)] 機能は、ベース ページ エクスペリエンス、データベース、ネットワークリクエストの問題には使用できません。

次の例では、ビジネストランザクション /order がエラーをスローしている理由を知る必要があります。最初の疑わしい原因は、Frontend15novaauto のフロントエンドの問題です。

疑わしい原因にカーソルを合わせると、フローマップ内の関連エンティティが強調表示されます。クリティカルパス以外のすべてがフェードアウトし、ビジネストランザクションが開始され、1 分あたりのエラー数メトリックに異常があった ApacheWebServer が Frontend15novaauto に依存していることが明らかになります。

suspected cause

注: ゼロから上位 3 つの疑わしい原因になる可能性があります。たとえば、ART が高くても、ART に接続されているすべてのエンティティが正常に動作している場合は、疑わしい原因が特定されないため、原因がゼロになります。