運用と→管理監査指標とSLA

監査指標とSLA

1）なぜそれを必要とします

メトリクスが間違っている場合-決定が間違っている場合、SLAは「紙に」違反するか、またはその逆に問題を隠すことになります。監査の指標とSLAは、ユーザーとパートナーへの約束が同等で、信頼性が高く、法的に安全であることを保証します。

目的：

単一の「真実の源」（SSOT）と再現可能な計算を提供します。
ダッシュボード/レポート/課金の間の不一致を軽減します。
証拠ベースのSLAを作成します。
サービスのように早くも測定の劣化を検出します。

2）基本的な概念と責任の境界

メートル：測定された量（RPS、 p95、 CR、 GGRの成功率）。
KPI/OKR：メトリクスがリンクされているターゲット。
SLO：サービスのターゲット品質（例："p99 ≤ 400 ms 99。時間の9％"）。
SLA：外部約束；SLOに基づいて法的に重要です。
OLA：チーム/ベンダー間の社内契約、SLAをサポートしています。
SSOT：データがレポートの参照と見なされるシステム/ストレージ。

3）メトリックの分類（レイヤー）

1.インフラストラクチャ：CPU/メモリ/IO/ネット、ポッド/ノード、HPA/VPA。
2.プラットフォーム：キュー/ストリーム（遅延、スループット）、DB/キャッシュ（接続、ヒット）、API （p95/p99、 5xx）。
3.ビジネスフロー：入金/出金、賭け、ゲームの立ち上げ、承認、KYC。
4.製品/マーケティング：コンバージョン、ARPPU/LTV、キャンペーン。
5.プロセスの質：MTTA/MTTR、変更の失敗率、チェックリストの適用範囲。

ルール：各メトリックには、レイヤー、所有者、数式が必要です。

4）データソースと「true」

オンラインテレメトリー：Prometheus/OTel、ログ（ELK/ClickHouse）、トレース。
イベントと会計：Kafka/Outbox、 DWH/データマート（BigQuery/ClickHouse）。
手動アーティファクト：死後、チケット、インシデントレジスタ。
外部レジストリ：プロバイダレポート（PSP/KYC/studios）、請求。

競合の解決：「online vs DWH」の不一致の場合、優先度の規制が適用されます（たとえば、SLAの場合-ソースのトレーサビリティを持つDWHからの集計）。

5）メトリック監査プロセス（制御ループ）

1.在庫：メトリックカタログ/SLO/SLA（名前、所有者、レイヤー、数式、ソース、計算頻度）。
2.式の検証：SQL/プロモーションクエリと定義（計算の単位テスト）との照合。
3.サンプリングと再チェック：イベント/ログラインのサンプリングと手動の調整。
4.輪郭マッピング：オンラインダッシュボードとDWHレポートの比較。
5.変更制御：スキーマ/ロジックリリースの数式レビュー。
6.SLA監査：アセンブリと例外の正確性の検証（計画メンテナンス、不可抗力）。
7.レポートと改善：検出された不一致のリストと期限付きの修正。

6）定義と数式（サンプル）

成功率（API）：

'success=requests-（5xx+timeouts+circuit_open）'
'success_rate=success/requests'

レイテンシp95/p99：

SSOTは、ウィンドウの単一の定義（5m/1hのローリング）と集計（HDR/TDigest）を記録します。

SLO（例）：

'SLO_availability_month=（uptime-allowable_exceptions ）/total_time'

SLA（プロバイダの例）：

'SLA_month=99。UTCウィンドウによる90％の稼働率、計画されたウィンドウ（T-48通知）、トランジットオペレータ（文書）での実証可能な事故を除く'

7）データ品質： チェックとアラート

質の点検：

（完全性）：'received_events/ expected_events ≥ 0。99`.
適時性：負荷遅延≤ N分。
一意性：重複キーなし（idempotency-key）。
consistency-金額/通貨/文字。
直線性-カウンタは「ロールバック」されません。

測定品質（アイデア）に関するアラート：


ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8） SLA/OLA監査： 方法論

1.例外のカレンダーを収集する：計画されたウィンドウ、合意された劣化、ベンダーの行為。
2.稼働時間の計算：SSOTに基づいて、単一のタイムゾーンに従って。
3.事件との和解：タイムライン、チケット、死後。
4.アトリビューション：独自の障害、プロバイダ、トランジット、DDoS、定期メンテナンス。
5.SLA境界：ユーザーエクスペリエンス（E2E）と特定のAPIを比較します。
6.報告：毎月/四半期レポート：実際、偏差、補償（該当する場合）、是正措置。

9）計算再現性の確認

数式バージョン管理：SQL/PromQL/dock仕様のGitリポジトリ。
メトリクスのユニットテスト：合成データ（エッジケース：ギャップ、重複、日付境界）。
データライン：ダッシュボードからソーステーブルやイベントに戻ります。
スナップショット：再計算に匹敵するようにカットオフ用のデータをフリーズします。

10）サンプリング

毎日：キーフローによる10-20イベント（デポジット/レート/CCL）-トレース↔ DWHの手動検証。
Weekly：「online vs DWH」を集計全体で比較するための1％サンプル。
毎月：SLA効果を持つインシデントのセット-詳細な再構築。

サンプルレポートテンプレート（ブリーフ）：


Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11）ダッシュボードとアラートの監査

メトリックの統一辞書：ダッシュボード上の用語集。
リリース/イベントの注釈：偏差の原因を確認する。
リリース前/リリース後の比較：自動回帰パネル。
重複/不一致：「2つの異なるp99s」を識別する-数式/ウィンドウの編集。
パネルの可用性：権利、予約、リンク/バージョン管理。

12）メートル法変更管理

RFCプロセス-数式/ウィンドウ/ソースの変更-SLA/レポートによるRFCによる影響評価

移行「expand→migrate→contract」：両方のバージョンを一時的に保持し、比較し、古いバージョンをオフにします。
コミュニケーション：「新しい方法に従って」価値の転換の前にプロダクト/ビジネスに通知して下さい。

13）具体的なiGaming/fintech

デマンドピーク：メトリックは爆発的な負荷に耐えなければなりません（集計は「固執」しません）。
プロバイダ：SLAはOLAベンダー→レポート、インシデントのステータス、クォータの保存に依存します。
コスト：'cost_per_1k_calls'と'cost of success'は必須パネルです。
Antifraud/risk：メトリクスの遅延と「誤検出」に対する感度。

14）監査ダッシュボード（最小セット）

Metrics Health：完全性/適時性/重複、ingest-lag、 FTL。
SLO/SLA証拠：計算されたSLO、実際のSLA、例外、インシデント/行為への参照。
オンラインとDWHの比較：p95/p99/Success率、偏差、トレンド。
ベンダーSLA：プロバイダによるアップタイム/クォータ/タイムアウト/コスト。
Release Impact：フィーチャーの計算/インクルード後のメトリックの回帰。

15）監査チェックリスト（運用）

所有者と数式を持つメトリック/SLO/SLAディレクトリは最新です。
SSOTはレポート/パネルごとに定義されます。
数式のユニットテストは緑色で、計算パイプラインが文書化されています。
データ品質アラートがアクティブになります（完全性/タイムライン/重複）。
「Online vs DWH」の不一致≤許容しきい値（例：≤ 2％）です。
合意されたSLA例外は文書化され、レポートに添付されます。
制御サンプルを採取し、証明書を作成しました。
すべての数式変更はRFCとマイグレーションに合格しました。

16）例（断片）

PromQL-リリース前/リリース後のp99の比較：


api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})

SQL-Event Completeness Control：

sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;

Alertmanagerの規則-輪郭の発散：


ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17）アンチパターン

異なるパネル上の2つの異なる「同じ」メトリック式。
移行と通知なしでメトリックを変更する-OKR/SLAで「ジャンプ」。
ローカルExcelで「true」（非再現可能）としてレポートします。
SLA計算でのタイムゾーンとカレンダーのミキシング。
SLA例外は文書化されていません。
測定の品質に関する警告はありません。

18）測定成熟度KPI

ドリフトレートOnline↔DWH（目標≤ 2％）。
メトリックヘルス稼働時間。
Time-to-Fixフォーミュラ。
SLA紛争率。
カバレッジSLO/SLA（正式に記述されたSLO/SLAを持つクリティカルパスの割合）。

19）役割と責任

メトリック/サービスの所有者：数式、ソース、ダッシュボード、アラート。
観測/SRE： SSOT/プラットフォーム、数式テスト、データ品質アラート。
データ/BI： DWH、レポートの再現性、血統。
弁護士/パートナーマネージャー：SLA契約および例外。
インシデントマネージャ：SLAインシデントの表示とリンク。

20）クイックスタート（30日）

1週目：インベントリーメトリクス/SLO/SLAおよび所有者；SSOTを割り当てます。
週2：データ品質アラートと「Online vs DWH」パネルを含める。
週3：制御サンプルを行い、p95/p99ウィンドウを揃えます。
週4：数式のRFCプロセスを正式化し、添付ファイル付きの毎月のSLAレポートを準備します。

21） FAQ

Q： SSOT for SLAとは何ですか？
A：再現可能な計算（DWH）および完全な系統の貯蔵；オンラインパネル-法的行為ではなく、運用管理のため。

Q：「2つのp99s」を取扱う方法か"?

A：メトリックディレクトリのwindow/aggregationメソッドを修正し、パネルを移行し、アラートをドリフトに追加します。

Q：計画された仕事を考慮する方法か？
A：例外のカレンダーを維持し、契約のルールに従ってSLAから自動的に差し引きます。確認アーティファクトを保存します。

運用と→管理監査指標とSLA

監査指標とSLA

お問い合わせ

迅速な連絡

動画はまもなく更新されます

現在、私たちはプロジェクトで非常に多忙です