燃焼率アラート

Splunk Observability Cloud SLO における燃焼率アラートの仕組み。

燃焼率は、サービスレベル目標(SLO)のコンプライアンスウィンドウの間に、サービスがエラー予算をどれだけ早く消費するかの単位なしの測定値です。

例えば、コンプライアンスウィンドウが30日の場合、一定の燃焼率1はエラー予算がちょうど30日で使い切られることを意味し、一定の燃焼率2はエラー予算が15日で使い切られることを意味します。

Splunk Observability Cloud は、マルチウィンドウ、マルチ燃焼率アラートを実装し、サービスレベル目標 (SLO) エラー予算の消費率が、指定したコンプライアンスウィンドウの長さに対して健全な燃焼率しきい値を超えた場合に通知します。

エラー予算の計算

エラー予算は、実際の実績と望ましい実績の差を測定します。例えば、99.9% を目標とする SLO のエラー予算は 0.1% です。

エラー予算 = 100 % - SLO 目標

マルチウィンドウ、マルチ燃焼率アラートの仕組み

Splunk Observability Cloud の燃焼率アラートは、燃焼率しきい値に対してアラートがトリガーされる際に、ロングウィンドウとショートウィンドウを使用して、サービスがエラー予算を消費する速さをチェックします。

Splunk Observability Cloud は、アラートメカニズムの燃焼率しきい値を計算するために以下の式を使用します:

燃焼率のしきい値 = SLO コンプライアンスウィンドウ(時間単位) * 消費されたエラー予算 ロングウィンドウ(時間単位) * 100 %

次の表は、さまざまなロングウィンドウとショートウィンドウでの燃焼率のしきい値の推定値を示しています。ショートウィンドウは、Google が提案するように、ロングウィンドウの 1/12 になります。詳細については、Google の Site Reliability Workbook の「Alerting on SLOs」を参照してください。

99.9%のSLOで30日間のコンプライアンスウィンドウを設けた場合の燃焼率

ロングウィンドウ

ショートウィンドウ

消費されたエラー予算

燃焼率のしきい値

1時間

5分

2%

14.4

6時間

30分

5%

6

99.9%のSLOで7日間のコンプライアンスウィンドウを設けた場合の燃焼率

ロングウィンドウ

ショートウィンドウ

消費されたエラー予算

燃焼率のしきい値

1時間

5分

10%

16.8

6時間

30分

20%

5.6