外れ値検出

「外れ値検出」条件は、あるシグナルが同期間内の他のシグナルと著しく異なる場合にアラートを発します。

外れ値検出では、あるシグナルが同期間内の他のシグナルと著しく異なる場合にアラートがトリガーされます。この条件を使用して、あるクラスター内のどのノードが他のノードよりも多く CPU を使用しているかなど、(同期間内の)エミッターの集団の間で一貫性のない挙動を識別します。

注: 同じシグナルの過去の値と現在の値を比較する場合は、急激な変化または履歴的異常を使用します。

この条件を使用して、ホストをロードバランサに追加していないかどうか、またはホストとロードバランサの間に問題があるかどうかを判断します。たとえば、あるメトリックがロードバランサのホストにルーティングされたリクエストを追跡している場合、5 分のうちの 80% の期間、メトリック値が同様のシグナルの平均値を 2.5 標準偏差を超えて下回るときに異常値アラートがトリガーされます。

基本的な設定

パラメータ

備考

Alert when

Too highToo lowToo high or Too low

Trigger Sensitivity

LowMediumHighCustom

アラートのトリガー頻度の目安。[Low] を選択するとアラートのトリガー頻度は低下しり、アラートが解除されるまでの時間が長くなります(フラッピングが最小)。トリガーと解除の感度を決定する設定を変更するには、Custom を選択します(以下にリスト)。

詳細な設定

パラメータ

備考

Define thresholds by

Deviations from normNorm plus percentage change

比較を統計値(偏差数)で表すか、パーセンテージで表すか。

[Normal based on]([Define thresholds by] が Deviations from norm の場合)

Mean plus standard deviationMedian plus median absolute deviation

小さな集団(<15)の場合は、Median plus median absolute deviation が推奨されます。

[Normal defined by]([Define thresholds by] が Norm plus percentage change の場合)

MeanMedian

Median の方が、極値の影響を受けにくいです。

(オプション) Group by

ドロップダウンメニューから選択したディメンションまたはプロパティ

ディメンションまたはプロパティの異なる値に従って標準値を変更する場合は、ディメンションまたはプロパティを使用します。たとえば aws_availability_zone の選択時のゾーンが US-east と US-west の場合、US-east のインスタンスは US-east の他のインスタンスのみと比較されます。us-west も同様です。[None] を選択すると標準値は 1 つになり、すべてのメンバーがこの標準値と比較されます。

[Trigger threshold] および [Clear threshold]([Define thresholds by] が Deviations from norm の場合)

>= 0の数値。解除の閾値はトリガーの閾値より低くする必要があります

アラートをトリガーするために必要な基準からの偏差の数。

たとえば、トリガーの値が 3.5 の場合、比較対象の値との差が 3.5 標準偏差を超えるとアラートがトリガーされます。値が大きいほど感度が低下し、アラートが少なくなる可能性があります。

解除の値が 2.5 の場合、比較対象の値との差が 2.5 標準偏差以下になるとアラートが解除されます。値が大きいほど、アラートの解除に必要な時間が長くなります。

[Trigger threshold] および [Clear threshold]([Define thresholds by] が Norm plus percentage change の場合)

0~100の数値(0と100を含む)。解除の閾値はトリガーの閾値より低くする必要があります。

アラートのトリガーまたは解除に必要な変化のパーセンテージ。

たとえば、トリガーの値が 30 の場合、比較対象の値との差が 30% 以上になるとアラートがトリガーされます。値が大きいほど感度が低下し、アラートが少なくなる可能性があります。

解除の値が 20 の場合、比較対象の値との差が 20% 以下になるとアラートが解除されます。トリガーしきい値と解除しきい値の間にギャップがあると、アラートの解除に時間がかかります。

Trigger duration

パーセンテージ:1 ~ 100 の整数。時間の指標:>= 1 の整数の後に時間を表す指標(s、m、h、d、w)を付けます。例:30s、10m、2h、5d、1w

シグナルがトリガーしきい値を満たす必要がある回数と、予想されるデータポイントの数の比。パーセンテージを高くするほど、または期間を長くするほど、感度が低くなり、アラートが少なくなる可能性があります。このオプションの詳細については、「The Duration option」を参照してください。

Clear duration

パーセンテージ:1 ~ 100 の整数。時間の指標:>= 1 の整数の後に時間を表す指標(s、m、h、d、w)を付けます。例:30s、10m、2h、5d、1w

シグナルが解除しきい値を満たす必要がある回数と、予想されるデータポイントの数の比。パーセンテージが高く期間が長いほど、アラートの解除に必要な時間が長くなり、実際にアラート状態が解除されたという信頼度が向上します。このオプションの詳細については、「The Duration option」を参照してください。

継続期間のオプション

Trigger durationClear duration のオプションは、指定した時間窓の間に、予想数との比較において、いくつのシグナルが閾値を満たしたかに基づいて、アラートをトリガーまたは解除するために使用されます。

  • 100% を指定すると、予想されるすべてのデータ ポイントが到着し(遅延または欠落したデータポイントがない状態)、すべてがしきい値に一致することを意味します。つまり、時間範囲の 100% を指定すると、受信したすべてのデータポイントがしきい値を満たしていても、データポイントが遅延する、またはその時間範囲内に一切到着しないといった場合、アラートはトリガーされません。遅延または欠落しているデータポイントの詳細については、「Handle delayed or missing data points」を参照してください。

    注: アラートが即座にトリガーされるように指定するには、インフラストラクチャ ディテクタには 1 秒の 100% を、µAPM ディテクタには 10 秒の 100% を指定します。シグナル解像度が入力した値よりも大きい場合は、入力値をシグナル解像度以上の値に変更する必要があることを示すメッセージが表示されます。
  • 100 未満のパーセンテージを指定すると以下の効果があります。

    • アラートのしきい値については、低いパーセンテージの方が 100% を使用する場合よりもアラートをトリガーするために必要なシグナル数が少なくなるため、感度が高くなります(トリガーされるアラート数が多くなる可能性があります)。また、一部のデータポイントが欠落していても、必要な数の異常シグナルが到着している限り、アラートをトリガーできます。

    • 解除しきい値では、低いパーセンテージの方が解除条件をトリガーするために必要なシグナルが少ないため、100% を使用する場合よりも迅速にアラートを解除できます。また、一部のデータポイントが欠落していても、必要な数の正常なシグナルが到着している限り、アラートを解除できます。

以下の例は、このオプションが様々な状況においてアラートのトリガーと解除にどのように影響するかを示したものです。

アラート例1

  • 継続期間のパーセンテージに指定した値:10分の100%

  • シグナルの解像度:10秒

  • 10 分間に予想されるデータポイント数:6/分 * 10 分(60)

  • アラートをトリガーするまでの異常データポイント数(閾値を満たす必要がある回数):60の100%(60)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な異常データポイント数

    受信した異常データポイント数

    アラートはトリガーされるか?

    60

    60

    60

    60

    あり

    60

    60

    60

    59以下

    いいえ

    60

    59

    60

    59

    いいえ

    この例では、到着したデータポイントの 100% が異常であったにもかかわらず、必要な数(60)の異常データポイントが到着していないことに注意してください。したがって、アラートはトリガーされません。指定するパーセンテージは、予想されるデータポイント数に対するパーセンテージを示すものであり、受信データポイント数に対するパーセンテージではありません。

アラート例2

  • 継続期間のパーセンテージに指定した値:10分の80%

  • シグナルの解像度:10秒

  • 10 分間に予想されるデータポイント数:6/分 * 10 分(60)

  • アラートをトリガーするまでの異常データポイント数(閾値を満たす必要がある回数):60の80%(48)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な異常データポイント数

    受信した異常データポイント数

    アラートはトリガーされるか?

    60

    60

    48

    48-60

    あり

    60

    50

    48

    48-50

    あり

    60

    50

    48

    47

    いいえ

    この例では、47/50 は指定した 80% を超えていますが、必要な数(48)の異常データポイントが到着していないことに注意してください。したがって、アラートはトリガーされません。指定するパーセンテージは、予想されるデータポイント数に対するパーセンテージを示すものであり、受信データポイント数に対するパーセンテージではありません。

解除の例1

  • 継続期間のパーセンテージに指定した値:15分の100%

  • シグナルの解像度:30秒

  • 15 分間に予想されるデータポイント数:2/分 * 15 分(30)

  • アラートを解除するまでの異常データポイント数(閾値を満たす必要がある回数):30の100%(30)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な正常データポイント数

    受信した正常データポイント数

    アラートは解除されるか?

    30

    30

    30

    30

    あり

    30

    30

    30

    29以下

    いいえ

    30

    25

    30

    25

    いいえ

    この例では、到着したデータポイントの 100% が異常であったにもかかわらず、予想される 36 のデータポイントのうち 35 のみが到着していることに注意してください。したがって、アラートは解除されません。指定するパーセンテージは、予想されるデータポイント数に対するパーセンテージを示すものであり、受信データポイント数に対するパーセンテージではありません。

解除の例2

  • 継続期間のパーセンテージに指定した値:15分の50%

  • シグナルの解像度:30秒

  • 15 分間に予想されるデータポイント数:2/分 * 15 分(30)

  • アラートを解除するまでの異常データポイント数(閾値を満たす必要がある回数):30の50%(15)

    予想されるデータポイントの総数

    受信したデータポイントの総数

    必要な正常データポイント数

    受信した正常データポイント数

    アラートは解除されるか?

    30

    30

    15

    15-30

    あり

    30

    20

    15

    15-20

    あり

    30

    20

    15

    14

    いいえ

    この例では、14 個の異常データポイントが到着し、14/15 が指定した 50% を超えていますが、必要な数(15)の異常データポイントが到着していないことに注意してください。したがって、アラートはトリガーされません。指定するパーセンテージは、予想されるデータポイント数に対するパーセンテージを示すものであり、受信データポイント数に対するパーセンテージではありません。

参考

パラメータ

備考

アラートのタイミング

[Too high]または[Too low]の設定は、指定域を超えて上下に振動するシグナルに対してアラートをトリガーします(当然、指定域の外に十分な時間とどまることを前提として)。

トリガーと解除の継続期間

このパラメータは、ネイティブ解像度より大幅に大きく設定します。

トリガーの閾値と外れ値のアルゴリズム

[Mean plus standard deviation] を使用しても、n^2 + 1 が監視対象の母集団のサイズ以上であれば、n 標準偏差に対してアラートをトリガーすることはありません。したがって、母集団が小さい場合(n <  15)は、[Median plus median absolute deviation] を推奨します。

トリガーの閾値と解除の閾値

これらによって動的しきい値が生成され、多少の混乱が生じることがあります。たとえば、あるアラートを、シグナル値が 31.4(偏差ではなく、元のメトリックの単位)のときにトリガーし、55.1 のときに解除できます(その母集団の残りのシグナルの値も同様に上昇しているため)。