インシデントに Waiting Room を設定する
Splunk On-Call で Waiting Room エスカレーションポリシーを設定し、使用する方法。
復元力のあるモニタリングシステムの多くは、人的介入を必要とせずに問題を自動的に解決します。自動解決できるインシデントについてユーザーをページングすると、オンコールユーザーにとって不要なノイズが発生します。この問題を回避するために、Waiting Room を設置することをお勧めします。
Waiting Room エスカレーションポリシーを設定すると、問題の自動解決を可能にするために、設定可能な期間、インシデントを一時的に保留します。このアクションが実行されると、インシデントは Splunk On-Call で自動的にクローズされ、オンコールユーザーはページングされません。インシデントが選択した間隔よりも長くオープンになっている場合は、トリガーされたアラートとして担当チームまたはエスカレーションポリシーにルーティングされます。
新しいエスカレーションポリシーを設定する
-
Waiting Room のエスカレーションポリシーが必要なチームに移動します。Escalation Policies を選択し、次に Add Escalation Policy を選択します。
-
[Immediately] のドロップダウンを選択し、このチームの Waiting Room エスカレーションポリシーに送信されるアラートを遅延させる時間間隔を選択します。
-
Escalation type では、Execute Policy を選択し、設定された遅延時間内にインシデントの自動解決に失敗した場合に、これらのインシデントに責任を持つチームからポリシーを選択します。
ルーティングキーを作成する
-
Settings に移動し、次に Routing Keys に移動します。
-
[Add Key] を選択し、新しいルーティングキーに名前を付け、先ほど作成した Waiting Room チームを選択します。
これらのインシデントを Waiting Room にルーティングするために、ルールエンジンルールを設定します。
-
Settings に移動し、次に Add a Rule に移動します。
- Add a Rule を選択します。 次の例では、
entity_idフィールドと、entity_idフィールドの変数内のワイルドカードフレーズとをマッチさせるようにルールが設定されています。このマッチング条件を持つ着信アラートはすべて、Waiting Room エスカレーションポリシーにルーティングされます。これにより、緊急の問題が発生した場合にただちにページングするオンコールチームの機能に影響を与えることなく、マッチング条件の範囲をこれらの問題のみに制限できます。ルールエンジンの使用方法の詳細については「Splunk On-Call アラートルールエンジン」を参照してください。
この方法を必要とするさまざまなインシデントがあり、担当する複数のチームまたはエスカレーションポリシーがある場合は、チームのポリシーごとに、独自の routing_key を持つ固有の Waiting Room エスカレーションポリシーを設定する必要があります。たとえば、Ops チームを指名するエスカレーションポリシーを持つ「Ops Waiting Room」や、SRE チームを指名するエスカレーションポリシーを持つ「SRE Waiting Room」などです。