Splunk Observability Cloudにおけるサービスレベル目標(SLO)管理の概要
Splunk Observability Cloud でサービスレベル目標 (SLO) の概念と SLO の使用を開始する
サービスレベル目標(SLO)管理は、ビジネスニーズとエンジニアリングの信頼性目標を整合させるためのサービスレベルモニタリングです。
これまでも Splunk Observability Cloud のデータを使用して、サービスの監視、トラブルシューティング、最適化を行うことができましたが、SLO 管理はサービスの信頼性とパフォーマンスを定量的に追跡する方法を提供します。これにより、チームは製品開発と運用業務の間で適切な投資のトレードオフを行うことができます。
サービスレベルモニタリングとは何ですか?
サービスレベルモニタリングは、特定のサービスに関連するさまざまなサービスレベル指標(SLI)を測定、追跡、分析するプロセスです。これにより、デプロイしたソフトウェアやサービスの健全性をビジネス目標と比較することができます。
次の表は、サービスレベルモニタリングのキーコンセプトを定義したものです。
|
概念 |
定義 |
例 |
|---|---|---|
|
サービスレベルインジケータ(SLI) |
SLIは、サービスの健全性を示す定量的な測定値で、1 つのメトリクスまたはメトリクスの組み合わせとして表されます。 |
|
|
サービスレベル目標(SLO) |
SLO は、SLI の目標と、その目標を満たす必要があるコンプライアンス期間を定義します。SLO には、SLI、ターゲット、およびコンプライアンス期間の 3 つの要素が含まれます。コンプライアンス期間は、カレンダー(月次など)にすることも、過去 30 日間などのローリングにすることもできます。 |
|
|
サービスレベルアグリーメント (SLA) |
SLA は、ユーザーが組織から期待できるサービスレベルを示す契約上の合意です。SLA が守られない場合、財政的な影響が生じる可能性があります。 |
カスタマーサービスSLAでは、通常のサポート日に受けたサポートリクエストの90%は、6時間以内に回答しなければならないと定めています。 |
|
エラー予算 |
一定期間にわたる SLO に対する SLI のパフォーマンスの測定値。エラー予算は、実際の実績と望ましい実績の差を測定します。この期間中にサービスの信頼性がどのくらい低いかを判断し、修正措置を講じる必要がある場合にシグナルとして機能します。 |
当社のサービスは、7 日間で 100 ミリ秒を超えるリクエストの 1% に応答することができます。 |
|
燃焼率 |
SLO のコンプライアンスウィンドウの間に、サービスがエラー予算をどれだけ早く消費するかを示す、単位なしの測定値。燃焼率は、SLO とエラー予算を実行可能なものにし、現在のインシデントがオンコールレスポンダを呼び出すのに十分な深刻さであることをサービス所有者に示します。 |
30日間のコンプライアンスウィンドウを持つSLOの場合、一定の燃焼率1は、エラー予算がちょうど30日で使い切られることを意味します。 |
最初の SLO を作成する
SLO の使用を開始するには、「サービスレベル目標(SLO)を用いて、サービスの健全性メトリクスを測定および追跡する」を参照してください。