Splunk Observability Cloudにおけるサービスレベル目標(SLO)管理の概要

Splunk Observability Cloud でサービスレベル目標 (SLO) の概念と SLO の使用を開始する

サービスレベル目標(SLO)管理は、ビジネスニーズとエンジニアリングの信頼性目標を整合させるためのサービスレベルモニタリングです。

これまでも Splunk Observability Cloud のデータを使用して、サービスの監視、トラブルシューティング、最適化を行うことができましたが、SLO 管理はサービスの信頼性とパフォーマンスを定量的に追跡する方法を提供します。これにより、チームは製品開発と運用業務の間で適切な投資のトレードオフを行うことができます。

サービスレベルモニタリングとは何ですか?

サービスレベルモニタリングは、特定のサービスに関連するさまざまなサービスレベル指標(SLI)を測定、追跡、分析するプロセスです。これにより、デプロイしたソフトウェアやサービスの健全性をビジネス目標と比較することができます。

次の表は、サービスレベルモニタリングのキーコンセプトを定義したものです。

概念

定義

サービスレベルインジケータ(SLI)

SLIは、サービスの健全性を示す定量的な測定値で、1 つのメトリクスまたはメトリクスの組み合わせとして表されます。

  • 可用性SLI: 応答に成功したリクエストの割合

  • パフォーマンスSLI:100 ミリ秒未満でロードされたリクエストの割合

サービスレベル目標(SLO)

SLO は、SLI の目標と、その目標を満たす必要があるコンプライアンス期間を定義します。SLO には、SLI、ターゲット、およびコンプライアンス期間の 3 つの要素が含まれます。コンプライアンス期間は、カレンダー(月次など)にすることも、過去 30 日間などのローリングにすることもできます。

  • カレンダー期間における可用性SLI:当社のサービスは、1か月間に95%のリクエストに正常に応答する必要があります。

  • ローリング期間にわたるパフォーマンス SLI:当社のサービスは、7日間でリクエストの 99% に 100 ミリ秒未満で応答する必要があります。

サービスレベルアグリーメント (SLA)

SLA は、ユーザーが組織から期待できるサービスレベルを示す契約上の合意です。SLA が守られない場合、財政的な影響が生じる可能性があります。

カスタマーサービスSLAでは、通常のサポート日に受けたサポートリクエストの90%は、6時間以内に回答しなければならないと定めています。

エラー予算

一定期間にわたる SLO に対する SLI のパフォーマンスの測定値。エラー予算は、実際の実績と望ましい実績の差を測定します。この期間中にサービスの信頼性がどのくらい低いかを判断し、修正措置を講じる必要がある場合にシグナルとして機能します。

当社のサービスは、7 日間で 100 ミリ秒を超えるリクエストの 1% に応答することができます。

燃焼率

SLO のコンプライアンスウィンドウの間に、サービスがエラー予算をどれだけ早く消費するかを示す、単位なしの測定値。燃焼率は、SLO とエラー予算を実行可能なものにし、現在のインシデントがオンコールレスポンダを呼び出すのに十分な深刻さであることをサービス所有者に示します。

30日間のコンプライアンスウィンドウを持つSLOの場合、一定の燃焼率1は、エラー予算がちょうど30日で使い切られることを意味します。

最初の SLO を作成する

SLO の使用を開始するには、「サービスレベル目標(SLO)を用いて、サービスの健全性メトリクスを測定および追跡する」を参照してください。