サーバーの遅延を監視するディテクタを作成する

この Splunk のアラートおよびディテクタの例では、サーバーの遅延を監視するディテクタの作成方法について説明します。

Buttercup Games のサイト信頼性エンジニアである Kai は、ゲームサーバーで大きな遅延を経験しているお客様から多くのチケットを受け取りました。Kai は、ホストマシンのサーバー遅延を監視する信頼性の高い方法を必要としています。そうすることで、お客様が大きな遅延の問題を経験する前に問題を迅速に特定して解決できます。

Splunk Observability Cloud を使用することで、サーバーの遅延が一定期間にわたってしきい値を超えた場合にアラートを出すディテクタを作成することができます。

アラートに使用するデータを定義する

Kaiは、Splunk Observability Cloud の Detectors & SLOs ページを開き、New Detector を選択してゼロからディテクターを作成します。

ディテクターに名前をつけた後、Infrastructure or Custom Metrics Alert Rule を選択しました。

必要なメトリクスである latency を選択し、このメトリクスをレポートするプレビューディテクターを確認します:

この画像は、Kaiのディテクターがレポートするメトリクスのプレビュー表示です。

Kai は、分析を適用してシグナルのレポート方法を変更できます。Kai は 1 分間の時間枠でサーバー遅延の平均をレポートしたいと考えているため、[Mean:Transformation] 分析を適用し、期間を 1 分と入力します。

プレビューディテクタは Kai が適用した分析を反映して変化します。

このスクリーンショットは、1分間の各マシンの平均サーバーレイテンシを反映したプレビューを示しています。

アラート条件を選択する

アラート条件の複数のオプションから選択できます。アラート条件によって、アラートをトリガーする動作のタイプが決まります。

Kai は、サーバーの遅延が特定の期間に特定のポイントを超えるタイミングを知りたいので、[Static threshold] アラート条件を選択します。それ以外の場合は、別のアラート条件を選択するとよいでしょう。たとえば、サーバーの遅延が急激に増加したときにアラートを受け取る場合は、[Sudden change] 条件を選択します。

アラート設定をカスタマイズする

Alert Setting メニューで、Kaiは以下のフィールドに希望する値を入力します:

フィールド

説明

Threshold

280

latency が280ミリ秒を超えると、ディテクターはアラートを発します

Duration

1分

latency が1分間以上にわたって280ミリ秒を超えると。ディテクターはアラートを発します

ディテクタープレビューでは、ディテクターがアラートをトリガーすると、タイムスタンプに赤い矢印が表示されます:

このスクリーンショットは、アラートがトリガーされた場合のタイムスタンプ上の赤い矢印を示しています。

アラートメッセージと受信者を設定する

アラート条件の作成後、[Alert Message] を選択します。Kai はランブック buttercupgames.com/alerts を入力し、サーバーのメモリ負荷とディスク使用量をチェックするための内部ヒントを追加します。

このスクリーンショットは、Kaiがアラートに対して入力するランブックとヒントを示しています。

ランブックとヒントにより、アラートを素早く表示し、アラートがトリガーされたときに何をすべきかを思い出すことができます。

次に、[Alert Recipients] を選択し、アラート受信者リストに自分のメールアドレスを追加します。メールアドレスを追加した後、このアラートルールを有効化します。

概要

Kai は、1 分間の平均サーバー遅延が 1 分間にわたってしきい値の 280 ミリ秒を超えるとアラートを送信するディテクタを作成しました。このディテクタにより、以前は気づかなかったサーバー遅延の問題を迅速に検出し、解決することができます。

さらに詳しく

ディテクタの作成方法の詳細については、「アラートをトリガーするディテクタの作成」を参照してください。

アラート条件と適切な条件の選択方法の詳細については、「Built-in alert conditions」を参照してください。