GH GambleHub

運用と→管理監査指標とSLA

監査指標とSLA

1)なぜそれを必要とします

メトリクスが間違っている場合-決定が間違っている場合、SLAは「紙に」違反するか、またはその逆に問題を隠すことになります。監査の指標とSLAは、ユーザーとパートナーへの約束が同等で、信頼性が高く、法的に安全であることを保証します。

目的:
  • 単一の「真実の源」(SSOT)と再現可能な計算を提供します。
  • ダッシュボード/レポート/課金の間の不一致を軽減します。
  • 証拠ベースのSLAを作成します。
  • サービスのように早くも測定の劣化を検出します。

2)基本的な概念と責任の境界

メートル:測定された量(RPS、 p95、 CR、 GGRの成功率)。
KPI/OKR:メトリクスがリンクされているターゲット。
SLO:サービスのターゲット品質(例:"p99 ≤ 400 ms 99。時間の9%")。
SLA:外部約束;SLOに基づいて法的に重要です。
OLA:チーム/ベンダー間の社内契約、SLAをサポートしています。
SSOT:データがレポートの参照と見なされるシステム/ストレージ。

3)メトリックの分類(レイヤー)

1.インフラストラクチャ:CPU/メモリ/IO/ネット、ポッド/ノード、HPA/VPA。
2.プラットフォーム:キュー/ストリーム(遅延、スループット)、DB/キャッシュ(接続、ヒット)、API (p95/p99、 5xx)。
3.ビジネスフロー:入金/出金、賭け、ゲームの立ち上げ、承認、KYC。
4.製品/マーケティング:コンバージョン、ARPPU/LTV、キャンペーン。
5.プロセスの質:MTTA/MTTR、変更の失敗率、チェックリストの適用範囲。

ルール:各メトリックには、レイヤー、所有者、数式が必要です。

4)データソースと「true」

オンラインテレメトリー:Prometheus/OTel、ログ(ELK/ClickHouse)、トレース。
イベントと会計:Kafka/Outbox、 DWH/データマート (BigQuery/ClickHouse)。
手動アーティファクト:死後、チケット、インシデントレジスタ。
外部レジストリ:プロバイダレポート(PSP/KYC/studios)、請求。

競合の解決:「online vs DWH」の不一致の場合、優先度の規制が適用されます(たとえば、SLAの場合-ソースのトレーサビリティを持つDWHからの集計)。

5)メトリック監査プロセス(制御ループ)

1.在庫:メトリックカタログ/SLO/SLA(名前、所有者、レイヤー、数式、ソース、計算頻度)。
2.式の検証:SQL/プロモーションクエリと定義(計算の単位テスト)との照合。
3.サンプリングと再チェック:イベント/ログラインのサンプリングと手動の調整。
4.輪郭マッピング:オンラインダッシュボードとDWHレポートの比較。
5.変更制御:スキーマ/ロジックリリースの数式レビュー。
6.SLA監査:アセンブリと例外の正確性の検証(計画メンテナンス、不可抗力)。
7.レポートと改善:検出された不一致のリストと期限付きの修正。

6)定義と数式(サンプル)

成功率(API):
  • 'success=requests-(5xx+timeouts+circuit_open)'
  • 'success_rate=success/requests'
レイテンシp95/p99:
  • SSOTは、ウィンドウの単一の定義(5m/1hのローリング)と集計(HDR/TDigest)を記録します。
SLO(例):
  • 'SLO_availability_month=(uptime-allowable_exceptions )/total_time'
SLA(プロバイダの例):
  • 'SLA_month=99。UTCウィンドウによる90%の稼働率、計画されたウィンドウ(T-48通知)、トランジットオペレータ(文書)での実証可能な事故を除く'

7)データ品質: チェックとアラート

質の点検:
  • (完全性):'received_events/ expected_events ≥ 0。99`.
  • 適時性:負荷遅延≤ N分。
  • 一意性:重複キーなし(idempotency-key)。
  • consistency-金額/通貨/文字。
  • 直線性-カウンタは「ロールバック」されません。
測定品質(アイデア)に関するアラート:

ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8) SLA/OLA監査: 方法論

1.例外のカレンダーを収集する:計画されたウィンドウ、合意された劣化、ベンダーの行為。
2.稼働時間の計算:SSOTに基づいて、単一のタイムゾーンに従って。
3.事件との和解:タイムライン、チケット、死後。
4.アトリビューション:独自の障害、プロバイダ、トランジット、DDoS、定期メンテナンス。
5.SLA境界:ユーザーエクスペリエンス(E2E)と特定のAPIを比較します。
6.報告:毎月/四半期レポート:実際、偏差、補償(該当する場合)、是正措置。

9)計算再現性の確認

数式バージョン管理:SQL/PromQL/dock仕様のGitリポジトリ。
メトリクスのユニットテスト:合成データ(エッジケース:ギャップ、重複、日付境界)。
データライン:ダッシュボードからソーステーブルやイベントに戻ります。
スナップショット:再計算に匹敵するようにカットオフ用のデータをフリーズします。

10)サンプリング

毎日:キーフローによる10-20イベント(デポジット/レート/CCL)-トレース↔ DWHの手動検証。
Weekly: 「online vs DWH」を集計全体で比較するための1%サンプル。
毎月:SLA効果を持つインシデントのセット-詳細な再構築。

サンプルレポートテンプレート(ブリーフ):

Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11)ダッシュボードとアラートの監査

メトリックの統一辞書:ダッシュボード上の用語集。
リリース/イベントの注釈:偏差の原因を確認する。
リリース前/リリース後の比較:自動回帰パネル。
重複/不一致:「2つの異なるp99s」を識別する-数式/ウィンドウの編集。
パネルの可用性:権利、予約、リンク/バージョン管理。

12)メートル法変更管理

RFCプロセス-数式/ウィンドウ/ソースの変更-SLA/レポートによるRFCによる影響評価

移行「expand→migrate→contract」:両方のバージョンを一時的に保持し、比較し、古いバージョンをオフにします。
コミュニケーション:「新しい方法に従って」価値の転換の前にプロダクト/ビジネスに通知して下さい。

13)具体的なiGaming/fintech

デマンドピーク:メトリックは爆発的な負荷に耐えなければなりません(集計は「固執」しません)。
プロバイダ:SLAはOLAベンダー→レポート、インシデントのステータス、クォータの保存に依存します。
コスト:'cost_per_1k_calls'と'cost of success'は必須パネルです。
Antifraud/risk:メトリクスの遅延と「誤検出」に対する感度。

14)監査ダッシュボード(最小セット)

Metrics Health:完全性/適時性/重複、ingest-lag、 FTL。
SLO/SLA証拠:計算されたSLO、実際のSLA、例外、インシデント/行為への参照。
オンラインとDWHの比較:p95/p99/Success率、偏差、トレンド。
ベンダーSLA:プロバイダによるアップタイム/クォータ/タイムアウト/コスト。
Release Impact:フィーチャーの計算/インクルード後のメトリックの回帰。

15)監査チェックリスト(運用)

  • 所有者と数式を持つメトリック/SLO/SLAディレクトリは最新です。
  • SSOTはレポート/パネルごとに定義されます。
  • 数式のユニットテストは緑色で、計算パイプラインが文書化されています。
  • データ品質アラートがアクティブになります(完全性/タイムライン/重複)。
  • 「Online vs DWH」の不一致≤許容しきい値(例:≤ 2%)です。
  • 合意されたSLA例外は文書化され、レポートに添付されます。
  • 制御サンプルを採取し、証明書を作成しました。
  • すべての数式変更はRFCとマイグレーションに合格しました。

16)例(断片)

PromQL-リリース前/リリース後のp99の比較:

api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL-Event Completeness Control:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanagerの規則-輪郭の発散:

ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17)アンチパターン

異なるパネル上の2つの異なる「同じ」メトリック式。
移行と通知なしでメトリックを変更する-OKR/SLAで「ジャンプ」。
ローカルExcelで「true」(非再現可能)としてレポートします。
SLA計算でのタイムゾーンとカレンダーのミキシング。
SLA例外は文書化されていません。
測定の品質に関する警告はありません。

18)測定成熟度KPI

ドリフトレートOnline↔DWH(目標≤ 2%)。
メトリックヘルス稼働時間。
Time-to-Fixフォーミュラ。
SLA紛争率。
カバレッジSLO/SLA(正式に記述されたSLO/SLAを持つクリティカルパスの割合)。

19)役割と責任

メトリック/サービスの所有者:数式、ソース、ダッシュボード、アラート。
観測/SRE: SSOT/プラットフォーム、数式テスト、データ品質アラート。
データ/BI: DWH、レポートの再現性、血統。
弁護士/パートナーマネージャー:SLA契約および例外。
インシデントマネージャ:SLAインシデントの表示とリンク。

20)クイックスタート(30日)

1週目:インベントリーメトリクス/SLO/SLAおよび所有者;SSOTを割り当てます。
週2:データ品質アラートと「Online vs DWH」パネルを含める。
週3:制御サンプルを行い、p95/p99ウィンドウを揃えます。
週4:数式のRFCプロセスを正式化し、添付ファイル付きの毎月のSLAレポートを準備します。

21) FAQ

Q: SSOT for SLAとは何ですか?
A:再現可能な計算(DWH)および完全な系統の貯蔵;オンラインパネル-法的行為ではなく、運用管理のため。

Q: 「2つのp99s」を取扱う方法か"?

A:メトリックディレクトリのwindow/aggregationメソッドを修正し、パネルを移行し、アラートをドリフトに追加します。

Q:計画された仕事を考慮する方法か?
A:例外のカレンダーを維持し、契約のルールに従ってSLAから自動的に差し引きます。確認アーティファクトを保存します。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。