Splunk Observability Cloudの組織のメトリクスを表示する

Splunk Observability Cloud は具体的なメトリクスを提供するため、組織のプラットフォームの使用状況を測定できます。

組織のメトリクスには以下が含まれます:

  • 取り込みのメトリクス:送信したデータポイントの数など、Infrastructure Monitoring に送信しているデータを測定します。

  • アプリ使用状況のメトリクス:組織内のダッシュボードの数など、アプリケーション機能の使用状況を測定します。

  • インテグレーションのメトリクス:AWS CloudWatch API へのコール数など、組織と統合されたクラウドサービスの使用状況を測定します。

  • リソースのメトリクス:作成したカスタムメトリクス時系列(MTS)の数など、制限を指定できるリソースの使用状況を測定します。

これらのメトリクスの使用について料金は発生しません。また、これらはシステムの制限にカウントされません。

組織のメトリクスへのアクセス

管理者の場合は、[Organization Overview] ページの組み込みグラフでこれらのメトリクスの一部を表示できます。すべてのユーザーは、カスタムグラフでこれらのメトリクスを表示できます。

「組織の概要」ページにアクセスするには、以下の手順に従ってください:

  1. Splunk Observability Cloud にログインします。

  2. 左側のナビゲーションで [Settings] を選択し、[Organization Overview] を選択します。

  3. 表示したいメトリクスのタブを選択します:

    • [Engagement]:ユーザーと、ユーザーが作成したグラフ、ディテクタ、ダッシュボード、ダッシュボードグループ、チームに関するメトリクス。

    • [APM entitlements]:APM のトラブルシューティング用。

    • [APM throttling]:組織内のスロットリングと制限を追跡するメトリクスを強調表示するグラフ。

    • [IM entitlements]:IM のトラブルシューティング用。

    • [IM system limits]:組織内のシステム制限の使用状況を追跡するメトリクスを特定するグラフ。

    • [IM throttling]:組織内のスロットリングと制限を追跡するメトリクスを強調表示するグラフ。

    • [Cloud integrations]:クラウドプロバイダー API からのテレメトリ収集を制限する可能性のあるエラーとスロットリングを追跡するメトリクスを強調表示するグラフ。

組織のメトリクスの解釈と活用

このセクションでは、使用状況に関するメトリクスの解釈と活用に役立つヒントを提供します。

データ制限、データスロットリング、データフィルタリング

システム制限を追跡するメトリクス」および「データのスロットリングを追跡するメトリクス」で説明されているように、ご利用のプランの権限またはシステムの制限を超えた場合、データは制限または抑制されます。

また、データはプラットフォームからフィルタリングされ、特定の組織メトリクス値で追跡できます。

  • データは、SignalFx エクスポータなど、特定のコンポーネントで自動的にフィルタリングできます。

  • 無効なデータも、プラットフォームに到達するとフィルタリングされます。たとえば、メトリック名または値のないデータポイントは無効であり、ドロップされます。トレースまたはスパン ID のないスパンでも同じです。

gross と num のメトリック値の比較

gross および num メトリック値 gross および num メトリック値

メトリクスの中には、gross 値と num 値をレポートするものがあります。メトリックの grossnum の値を比較して、システムがデータを制限またはフィルタリングしているかどうかを確認します。

  • gross メトリクスは、スロットリングやフィルタリングが作動する前にシステムが受信するデータポイントの総数をレポートします。

  • num メトリクスは、システムがスロットリングまたはフィルタリングを完了した後に受信するデータポイントの総数をレポートします。

システム制限を追跡するメトリクス

これらのメトリックは、Infrastructure Monitoring が組織に課す制限を追跡します。これらの制限を超えると、データが除外されることがあります。

  • sf.org.limit.activeTimeSeries(ゲージ):過去 25 時間の移動ウィンドウ内の、組織が保持できるアクティブな MTS の最大数。この制限を超えると、Infrastructure Monitoring は新しい MTS のデータポイントの受け入れを停止しますが、既存の MTS のデータポイントは引き続き受け入れます。制限に対して使用量を監視するには、メトリック sf.org.numActiveTimeSeries を使用します。

  • sf.org.limit.containers(ゲージ):組織にデータを送信できるコンテナの最大数。この制限は、バーストおよび超過使用について許可される契約上の制限よりも高く設定されています。この制限を超えると、Infrastructure Monitoring は新しいコンテナからのデータポイントを除外しますが、既存のコンテナのデータポイントの受け入れは継続します。制限に対して使用量を監視するには、メトリック sf.org.numResourcesMonitored を使用し、ディメンション resourceType:containers をフィルタリングします。

  • sf.org.limit.computationsPerMinute (ゲージ):1分あたりのSignalFlowの最大計算回数。

  • sf.org.limit.customMetricMaxLimit(ゲージ):過去 60 分間の移動ウィンドウ内で組織にデータを送信できるアクティブなカスタム MTS の最大数。この制限を超えると、Infrastructure Monitoring は制限を超えたカスタム MTS のデータポイントを除外しますが、既存のカスタム MTS のデータポイントは引き続き受け入れます。sf.org.numCustomMetrics で定義したカスタムメトリクスを確認します。

    カスタム MTS の詳細については、「Infrastructure Monitoringでのメトリクスの請求」を参照してください。

  • sf.org.limit.customMetricTimeSeries (ゲージ):アクティブなカスタムMTSの最大数。

  • sf.org.limit.detector(ゲージ):組織に使用できるディテクタの最大数。この制限に達すると、新しいディテクタを作成できなくなります。作成したディテクタの数を監視するには、メトリック sf.org.num.detector を使用します。

  • sf.org.limit.eventsPerMinute (ゲージ):1分あたりの受信イベントの最大数。

  • sf.org.limit.hosts(ゲージ):組織にデータを送信できるホストの最大数。この制限は、バーストおよび超過使用について許可される契約上の制限よりも高く設定されています。この制限を超えると、Infrastructure Monitoring は新しいホストからのデータポイントを除外しますが、既存のホストのデータポイントの受け入れは継続します。制限に対して使用量を監視するには、メトリック sf.org.numResourcesMonitored を使用し、ディメンション resourceType:hosts をフィルタリングします。

  • sf.org.limit.metricTimeSeriesCreatedPerMinute(ゲージ):組織内で新しい MTS を作成できる最大レート(MTS/分単位で測定)。このレートを超えると、Infrastructure Monitoring は新しい MTS のデータポイントの受け入れを停止しますが、既存の MTS のデータポイントは引き続き受け入れます。作成したメトリックの数を全体で監視するには、メトリック sf.org.numMetricTimeSeriesCreated を使用します。

データのスロットリングを追跡するメトリクス

前のセクションで説明したように、特定のシステム制限は「天井」、つまり Observability Cloud で許可される要素の最大数として機能します。ただし、プラットフォームは取り込みのペースも制限します。レート制限を超えると、Splunk Observability Cloud は、送信するデータを抑制または速度低下させる可能性があります。

名前に limit または limited が含まれる組織のメトリクスは、量の上限に達していることを示しますが、throttled が含まれるメトリクス(たとえば、sf.org.numThrottledMetricTimeSeriesCreateCalls)は、レート/時間の上限に達していることを示し、したがって、1 分あたりのデータポイント数を超えて送信することができなくなります。

詳細については、「Splunk Observability Cloud の製品別のシステム制限」を参照してください。

トークン別の値のメトリクス

Infrastructure Monitoringが2つの類似したメトリクスを持つ場合があります:

  • 1つのメトリクスは、sf.org.numAddDatapointCalls のように、組織全体の合計を表します。

  • これに類似したメトリクス、sf.org.numAddDatapointCallsByToken は、使用される一意のアクセストークンごとの合計を表します。

測定値のすべてのトークンメトリック値の合計は、合計値メトリック値よりも小さい場合があります。たとえば、すべての sf.org.numAddDatapointCallsByToken の値の合計が sf.org.numAddDatapointCalls の値より小さい場合があります。Infrastructure Monitoring では、統合したクラウドサービスからデータを取得するためにトークンを使用しないため、合計は異なります。Infrastructure Monitoring は、統合されたサービスのデータポイントのコールをカウントしますが、特定のトークンのコールをカウントする方法はありません。

AWS CloudWatch、GCP StackDriver、AppDynamicsについて、この値の差が発生します。

各メトリクスタイプに対して値を持つメトリクス

一部のメトリックにはメトリックタイプ(カウンタ、累積カウンタ、またはゲージ)ごとに値があるため、メトリックごとに 3 つの MTS があります。各 MTS には COUNTERCUMULATIVE_COUNTER、または GAUGE の値を持つ category という名前のディメンションがあります。これらのメトリックには複数の MTS を持つことができるため、sum() SignalFlow 関数を使用して合計値を表示する必要があります。

例えば、sf.org.numMetricTimeSeriesCreated について3つのMTSを受け取る可能性があります。カウンターであるMTSの数に対して1つ、累積カウンターであるMTSの数に対して1つ、ゲージであるMTSの数に対して1つです。

また、category を単一の値でフィルタリングして(例: GAUGE )、そのタイプのメトリクスだけを表示することもできます。

停止したディテクターをカウントするメトリクス

メトリック sf.org.numDetectorsAborted は、ディテクタがリソース制限に達したために Infrastructure Monitoring が停止したディテクタの数を監視します。ほとんどの場合、ディテクタは 250K MTS の制限を超えています。また、この条件によりイベント sf.org.abortedDetectors が生成されます。このイベントには、ディテクタ ID、停止した理由、ディテクタを停止させた MTS またはデータポイントの値または制限などの詳細が記録されます。

詳細については、「イベントを使用してメトリクスにコンテキストを追加する」を参照してください。

クラウド認証エラーのメトリクス

ロールを編集して、クラウドサービスに対するユーザの権限を削除すると、クラウド サービス プロバイダーから認証エラーが発生する場合があります。これが発生すると、Splunk Observability Cloud のインテグレーションが正しく機能せず、サービスからデータとメタデータを収集できません。

Splunk Observability Cloudには、認証エラーを追跡するための以下のメトリクスがあります:

  • sf.org.num.awsServiceAuthErrorCount

  • sf.org.num.gcpServiceAuthErrorCount

  • sf.org.num.azureServiceAuthErrorCount

これらのエラーが発生した場合は、Splunk Observability Cloud がデータを取得できるようにするため、ロールまたはトークンを修正する必要があります。

ダッシュボードで、これらのエラーを使用して、この問題が発生しているかどうかを検出できます。

子組織のメトリクス

親組織に子組織が関連付けられている場合、子組織のメトリクスも Splunk Observability Cloud に追加されます。これらは同等の親組織メトリクスと同じ値を表し、child プレフィックスで識別できます。

例えば、sf.org.child.numCustomMetrics は、Splunk Observability Cloudがこの子組織について監視しているカスタムメトリクスの数を表します。これは、sf.org.numCustomMetrics が親組織について監視されているカスタムメトリクスの数を表すのと同様です。

組織のメトリクスのリスト

Metric Finder を使用して、組織のメトリクスを検索します。

Splunk Observability Cloudは、以下の組織メトリクスを提供しています:

https://raw.githubusercontent.com/signalfx/integrations/main/signalfx-org-metrics/metrics.yaml

トラブルシューティング

__ ___ ___ _ ______ _____________ _____ ________ ___ ___ ___ ____ __ ___ ____ ____ __ ______ _____________ ______ ___ ___ ___ ____ __ ___ _________ _____

_________ __ ______ _____________ _____ _________

_________ __ ___________ _________ ___ ____ _____ _____

  • ___ _ ________ ___ ___ _______ _______ _________ _______ __ ______ ________

  • ____ ___ ______ ______________ ____ _____ _____ _______ __ ___________ ____ __________ _________ ___ ______ _________ __________ __ _____ ___ ____ _______