GH GambleHub

運用と→管理インシデント予測

インシデントの予測

1)なぜそれを必要とします

事件はほとんど"どこからともなく爆発する。"障害が発生する前に、プラットフォームはシグナルを提供します。p99の成長の加速、エラー予算の燃焼の遅さ、キューラグ、特定の下流でのレトレイの増加、プロバイダのクォータに近づいています。システミックインシデント予測は「、消防」から「早期介入」への応答を変換し、MTTR、 Change Failure Rate、および収益損失を削減します。

目的:
  • 前駆パターンを特定し、自動的に予防措置を開始します。
  • 左(インシデント前の検出率)にシフトすることで、P1/P2シェアを削減します。
  • リリース、feilover、 capacity preemptionsのプロセスを予測します。

2)鉛の表示器

プラットフォーム/インフラ:
  • 加速p95/p99(勾配)、遅延の「尾」、変動の増加。
  • キュー/ストリーム:成長「遅延」と正の微分遅延;最大でHPA。
  • DB/cache: 'active_conns/max_conns'、' replication_lag'、'evictions'、 drop 'cache_hit'。
  • ネットワーク:mTLS/ハンドシェイクエラー、 5xx/タイムアウトの増加。
依存関係/プロバイダ:
  • 'outbound_error_rate'/'retry_rate'を特定のプロバイダに'circuit_open'、 'quota_usage> 0。9`.
  • SLAプロバイダ:計画されたウィンドウ、劣化。
プロダクト/ビジネス:
  • 異常な負荷(キャンペーン/マッチ)、RPS/TPSジャンプ、珍しい地域/チャンネルミックス。
  • Deposit/rate conversion drop with p99 growth→準プロキシインシデント。
SLOレイヤー:
  • Burn-rate error-budget>しきい値(例:10〜15分間>4 ×)。
  • SLOの頻繁なマイナー違反(マイクロ劣化)近づく失敗のマーカーとして。

3)データソースとデータマート

オンラインテレメトリー:Prometheus/OTel(メトリック、ログ、トレイル)。
インシデントイベント:チケット/ステータス/ポストモーテム(ターゲットにtrue)。
変更プラン/事実:リリース、フィッシュフラグ、移行、プロバイダのウィンドウ。
ディレクトリ:依存関係マップ、クォータ、所有者。
DWH-snapshots:トレーニング/検証の単位(同期ウィンドウ!)。

品質要件:≥ 99%完全性、時間/分TZアライメント、均一なp95/p99定義。

4)予測アプローチ

4.1非パラメトリック/ルール(クイックスタート)

変更レートのしきい値アラート:'deriv (p99)'、短いウィンドウの'z-score'。
コンポジット条件:'lag>+HPA=max+circuit_open (to=「PSP-X」)'。
SLOバーンゲート:バーンレートでのリリース/カナリアストップ>X。

4.2異常検出

季節のベースライン(STL/Prophet-like ideas)、転がり中央値+MAD。
多変量:関節異常'p99+retry+open_circuit+quota'。
チェンジポイント検出:トレンドシフト用のCUSUM/BOCPD。

4.3 MLモデル(監修)

分類「T+Kのインシデント?」フィーチャーウィンドウによって(例えば、10-30分前)。
特徴:統計、デリバティブ、季節の残差、ワンホットプロバイダ/リージョン、リリースフラグ。
間隔[t、 t+K]のラベル:'incident{severity∈[P1,P2]}'。
説明:信頼性と操作性のためのSHAP/Permutationの重要性。

4.4 SREファーストハイブリッド

モデル→スコアリングリスク(0-1)→アクションポリシー(phicheflags/feilover/pre-scale)

5)特徴工学

スライドウィンドウ(1/5/15分):平均、p95/p99、 std、 max、 slope。
相対指標:'p99/baseline_1d'、 'error_rate_delta'。
コホート機能:プロバイダ、地域、ゲーム/マッチタイプ、デバイスチャネル。
「ロード」機能:RPS、ペイロードサイズ、開いたWSの数。
システム:'hpa_desired/max'、 'db_conn_ratio'、 'redis_evictions> 0'。
イベントフラグ:「release in progress」、 「canary 10%」、 「provider window」。

6)予測力学と行動

意思決定チェーン:

1.ドメインごとのN秒ごとのスコアリングリスク(Payments/Bets/Games/KYC)。

2.アラートポリシー:
  • リスク≥ 0。8+確認信号→ドメイン所有者ページ;
  • 0.6–0.8→警告+対策の準備。
3.セーフガード:
  • プリスキャン(HPA minReplicas)、キャッシュを有効にし、重い機能を制限します。
  • バックアッププロバイダ/ルートに切り替える
  • pause/rollbackカナリア;
  • 下流の「狭い」へのリトレイの限界。
  • 4.HITL:人は「、ビジネス行動の変化」レベルの措置を確認します。

7)毎日のプロセスへの統合

リリース:カナリアの予測ゲート(比較の前後とリスクスコアリング)。
Feilover:プロバイダのリスクでバックアップルートの自動準備/ウォームアップ。
容量:「早期アップリフト」とヘッドルームの落下とラグが上昇します。
アラート:ダッシュボードで「プリインシデント」+注釈を個別にフィードします。

8)可視性とダッシュボード

リスクの概要:ドメインとプロバイダーによるリスク、トレンド、機能の貢献。
リード信号:トップNハービンジャー (p99グラデーション、ラグ、オープンブレーカ)。
アクションとアウトカム:オンになったもの、p95/エラーへの影響、キャンセルされたインシデント。
モデル健康:精密/リコール/レイテンシ、徴候の漂流、自動行為の頻度。

9)予測品質指標

@P1/P2(重大なインシデント感度)を思い出してください。
精度(少ない「偽ページ」)。
リードタイム(中央値「事実の何分前」)。
介入ウィンレート(アクションがリスク/コストを削減した場合の割合)。
アラート疲労インデックス(alert/shift/person)。
ドリフトスコア(stat。トレーニング期間の特徴対の分布の違い)。

デフォルトのターゲットはRecall (P1) ≥ 0です。7の精密≥ 0。6の調達期間の中央の≥ 8-10分。

10)モデルリスク管理(ML Ops/ガバナンス)

データ/コード/アーティファクトのバージョン管理、再現性。
チャンピオン/チャレンジャー:新しいモデルは、オフライン/オンライン比較で並行して実行されます。
ドリフト:PSI/KL-発散、しきい値の自動列挙、アラート「モデルは時代遅れです」。
説明:各ソリューションについて、機能の重要性とデータへのリンクを保存します。
セキュリティ/倫理:アクセス、PIIマスキング、政治家による自動行動の制御。

11)サンプルルールとポリシー

SLO燃焼とカナリア(コンセプト):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
プロバイダの複合リスク:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
ストリーミングの遅れの嵐:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12)実施チェックリスト(30-60日)

  • インシデント(重症度、タイムライン)によるシグナルと「真実」のカタログ。
  • キーメトリックのベースラインと季節性(リリース前/リリース後)。
  • 初期信号規則(p99、ラグ、バーンレート勾配)。
  • リスクシグナル/アクションダッシュボード。
  • phicheflags/canaries、 pre-scale HPAとの統合。
  • 同じドメインのML分類器パイロット(例:支払い)。
  • HITLポリシーと自動アクティビティログ。
  • ドリフト/ヘルスをモデル化するための品質指標とアラート。

13)アンチパターン

「クリスタルボール」:ベースラインと単純なルールのない複雑なMLモデル。
行動可能性はありません:「悪い」と予測しますが、自動的には何もしません。
イベント(マッチ/トーナメント)の季節性/カレンダーを無視する→誤報。
タイムゾーン→誤ったメトリクス/インシデントウィンドウをミキシングします。
説明可能性の欠如→不信感、コマンドで予測を無効にします。
すべてのドメイン/リージョンの単一のグローバルしきい値→低精度。

14)ドメイン特異性(iGaming)

支払い:プロバイダ/クォータ、成長'retry_rate'と'circuit_open'→初期の偽物。
ベット:係数の更新の遅れ、WSファンアウトの成長→放送制限。
ゲーム/ライブ:接続スパイク、スタジオ制限→UI劣化/キャッシュ。
KYC/AML: webhookの遅延、検証キュー→HITL、遅延処理。

15)メトリックとアラートの例(アイデア)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16)予測プログラムKPI

インシデント前の検出率。
Avgリードインシデント前の時間。

P1/P2 QoQの削減

MTTR(初期のコンテキストのために期待されています)。
False Alarm Rate/Alert Fatigue(安定→)。
コスト回避。

17)速い開始(調理法)

1.p99/lagおよびSLO-burnのグラデーションルールを有効にします。
2.プロバイダの複合条件を追加します。
3.述語をphicheflagsとpre-scaleにリンクします。

4.予測→アクション→効果レポート;

5.1つのドメインのMLパイロット;Precision/Recall後のスケールが大きくなります。

18) FAQ

Q: MLなしで始めるべきところか?
A:季節のベースライン+グラデーション+複合ルール。これにより、合併症のないリコールが顕著に増加します。

Q:民間人の陽性に溺れないにはどうすればいいですか?
A:信号を結合し、ヒステリシスと確認時間を入力し、ドメイン/領域のしきい値を調整し、PrecisionとAlert Fatigueを評価します。

Q:最初にどのアクションを自動化するのですか?
A:安全でリバーシブル:事前スケール、キャッシュ/劣化、一時停止/ロールバックのカナリア、確認された信号のスイッチングプロバイダ。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。