遅延の突然の変化を考慮してディテクタに最大遅延を設定する

この Splunk のアラートおよびディテクタの例では、ディテクタに最大遅延を設定する方法を説明します。

Splunk Observability Cloud で、Buttercup Games のサイト信頼性エンジニアリング(SRE)チームが 「店舗の売上」 というディテクタを設定しています。このディテクタは Buttercup Games の店舗を監視し、いずれかの店舗の 1 時間あたりの売上が前週に比べて 10% 以上減少した場合にアラートを発します。

チームのSREであるKaiは、「店舗の売上」 ディテクターがアラートを発しても30分後にチャートを見るとすべてが正常に見えることがあるということに気づきました。

調査の結果、一部の店舗のデータで、その地域のネットワークインフラストラクチャが原因で突然、一時的に遅延が増加していることが判明しました。最初の計算から欠落しているデータポイントが原因でアラートが起動されたようです。しかし、30 分後にチャートを見ると、データポイントが到着しているため、Kai はディテクタが誤起動したと考えました。このような場合、分析エンジンは遅延の急激な変化を予測できません。

突発的なラグからのデータがディテクターの計算に含まれるようにするため、Kaiは 「店舗の売上」 に「最大遅延」の値を設定します。

Kai は遅延メトリック時系列(MTS)の最大遅延が 10 分であることを確認したので、10 分の最大遅延を設定します。これで既知の MTS がデータポイントを送信していない場合、分析エンジンは 10 分以内に実行されなくなりました。既知のすべての MTS がデータポイントを送信した場合は、10 分間の最大遅延が経過する前に計算が実行されます。

概要

「サービスエラー」 に「最大遅延」の閾値を設定することで、Kaiは遅延データの予期せぬ変化を考慮に入れてディテクターの動作を修正することに成功しました。

さらに詳しく

ディテクタの [Max Delay] の詳細については、「最大遅延」を参照してください。