運用と→管理インシデント予測
インシデントの予測
1)なぜそれを必要とします
事件はほとんど"どこからともなく爆発する。"障害が発生する前に、プラットフォームはシグナルを提供します。p99の成長の加速、エラー予算の燃焼の遅さ、キューラグ、特定の下流でのレトレイの増加、プロバイダのクォータに近づいています。システミックインシデント予測は「、消防」から「早期介入」への応答を変換し、MTTR、 Change Failure Rate、および収益損失を削減します。
目的:- 前駆パターンを特定し、自動的に予防措置を開始します。
- 左(インシデント前の検出率)にシフトすることで、P1/P2シェアを削減します。
- リリース、feilover、 capacity preemptionsのプロセスを予測します。
2)鉛の表示器
プラットフォーム/インフラ:- 加速p95/p99(勾配)、遅延の「尾」、変動の増加。
- キュー/ストリーム:成長「遅延」と正の微分遅延;最大でHPA。
- DB/cache: 'active_conns/max_conns'、' replication_lag'、'evictions'、 drop 'cache_hit'。
- ネットワーク:mTLS/ハンドシェイクエラー、 5xx/タイムアウトの増加。
- 'outbound_error_rate'/'retry_rate'を特定のプロバイダに'circuit_open'、 'quota_usage> 0。9`.
- SLAプロバイダ:計画されたウィンドウ、劣化。
- 異常な負荷(キャンペーン/マッチ)、RPS/TPSジャンプ、珍しい地域/チャンネルミックス。
- Deposit/rate conversion drop with p99 growth→準プロキシインシデント。
- Burn-rate error-budget>しきい値(例:10〜15分間>4 ×)。
- SLOの頻繁なマイナー違反(マイクロ劣化)近づく失敗のマーカーとして。
3)データソースとデータマート
オンラインテレメトリー:Prometheus/OTel(メトリック、ログ、トレイル)。
インシデントイベント:チケット/ステータス/ポストモーテム(ターゲットにtrue)。
変更プラン/事実:リリース、フィッシュフラグ、移行、プロバイダのウィンドウ。
ディレクトリ:依存関係マップ、クォータ、所有者。
DWH-snapshots:トレーニング/検証の単位(同期ウィンドウ!)。
品質要件:≥ 99%完全性、時間/分TZアライメント、均一なp95/p99定義。
4)予測アプローチ
4.1非パラメトリック/ルール(クイックスタート)
変更レートのしきい値アラート:'deriv (p99)'、短いウィンドウの'z-score'。
コンポジット条件:'lag>+HPA=max+circuit_open (to=「PSP-X」)'。
SLOバーンゲート:バーンレートでのリリース/カナリアストップ>X。
4.2異常検出
季節のベースライン(STL/Prophet-like ideas)、転がり中央値+MAD。
多変量:関節異常'p99+retry+open_circuit+quota'。
チェンジポイント検出:トレンドシフト用のCUSUM/BOCPD。
4.3 MLモデル(監修)
分類「T+Kのインシデント?」フィーチャーウィンドウによって(例えば、10-30分前)。
特徴:統計、デリバティブ、季節の残差、ワンホットプロバイダ/リージョン、リリースフラグ。
間隔[t、 t+K]のラベル:'incident{severity∈[P1,P2]}'。
説明:信頼性と操作性のためのSHAP/Permutationの重要性。
4.4 SREファーストハイブリッド
モデル→スコアリングリスク(0-1)→アクションポリシー(phicheflags/feilover/pre-scale)
5)特徴工学
スライドウィンドウ(1/5/15分):平均、p95/p99、 std、 max、 slope。
相対指標:'p99/baseline_1d'、 'error_rate_delta'。
コホート機能:プロバイダ、地域、ゲーム/マッチタイプ、デバイスチャネル。
「ロード」機能:RPS、ペイロードサイズ、開いたWSの数。
システム:'hpa_desired/max'、 'db_conn_ratio'、 'redis_evictions> 0'。
イベントフラグ:「release in progress」、 「canary 10%」、 「provider window」。
6)予測力学と行動
意思決定チェーン:1.ドメインごとのN秒ごとのスコアリングリスク(Payments/Bets/Games/KYC)。
2.アラートポリシー:- リスク≥ 0。8+確認信号→ドメイン所有者ページ;
- 0.6–0.8→警告+対策の準備。
- プリスキャン(HPA minReplicas)、キャッシュを有効にし、重い機能を制限します。
- バックアッププロバイダ/ルートに切り替える
- pause/rollbackカナリア;
- 下流の「狭い」へのリトレイの限界。
4.HITL:人は「、ビジネス行動の変化」レベルの措置を確認します。
7)毎日のプロセスへの統合
リリース:カナリアの予測ゲート(比較の前後とリスクスコアリング)。
Feilover:プロバイダのリスクでバックアップルートの自動準備/ウォームアップ。
容量:「早期アップリフト」とヘッドルームの落下とラグが上昇します。
アラート:ダッシュボードで「プリインシデント」+注釈を個別にフィードします。
8)可視性とダッシュボード
リスクの概要:ドメインとプロバイダーによるリスク、トレンド、機能の貢献。
リード信号:トップNハービンジャー (p99グラデーション、ラグ、オープンブレーカ)。
アクションとアウトカム:オンになったもの、p95/エラーへの影響、キャンセルされたインシデント。
モデル健康:精密/リコール/レイテンシ、徴候の漂流、自動行為の頻度。
9)予測品質指標
@P1/P2(重大なインシデント感度)を思い出してください。
精度(少ない「偽ページ」)。
リードタイム(中央値「事実の何分前」)。
介入ウィンレート(アクションがリスク/コストを削減した場合の割合)。
アラート疲労インデックス(alert/shift/person)。
ドリフトスコア(stat。トレーニング期間の特徴対の分布の違い)。
デフォルトのターゲットはRecall (P1) ≥ 0です。7の精密≥ 0。6の調達期間の中央の≥ 8-10分。
10)モデルリスク管理(ML Ops/ガバナンス)
データ/コード/アーティファクトのバージョン管理、再現性。
チャンピオン/チャレンジャー:新しいモデルは、オフライン/オンライン比較で並行して実行されます。
ドリフト:PSI/KL-発散、しきい値の自動列挙、アラート「モデルは時代遅れです」。
説明:各ソリューションについて、機能の重要性とデータへのリンクを保存します。
セキュリティ/倫理:アクセス、PIIマスキング、政治家による自動行動の制御。
11)サンプルルールとポリシー
SLO燃焼とカナリア(コンセプト):
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
プロバイダの複合リスク:
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
ストリーミングの遅れの嵐:
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12)実施チェックリスト(30-60日)
- インシデント(重症度、タイムライン)によるシグナルと「真実」のカタログ。
- キーメトリックのベースラインと季節性(リリース前/リリース後)。
- 初期信号規則(p99、ラグ、バーンレート勾配)。
- リスクシグナル/アクションダッシュボード。
- phicheflags/canaries、 pre-scale HPAとの統合。
- 同じドメインのML分類器パイロット(例:支払い)。
- HITLポリシーと自動アクティビティログ。
- ドリフト/ヘルスをモデル化するための品質指標とアラート。
13)アンチパターン
「クリスタルボール」:ベースラインと単純なルールのない複雑なMLモデル。
行動可能性はありません:「悪い」と予測しますが、自動的には何もしません。
イベント(マッチ/トーナメント)の季節性/カレンダーを無視する→誤報。
タイムゾーン→誤ったメトリクス/インシデントウィンドウをミキシングします。
説明可能性の欠如→不信感、コマンドで予測を無効にします。
すべてのドメイン/リージョンの単一のグローバルしきい値→低精度。
14)ドメイン特異性(iGaming)
支払い:プロバイダ/クォータ、成長'retry_rate'と'circuit_open'→初期の偽物。
ベット:係数の更新の遅れ、WSファンアウトの成長→放送制限。
ゲーム/ライブ:接続スパイク、スタジオ制限→UI劣化/キャッシュ。
KYC/AML: webhookの遅延、検証キュー→HITL、遅延処理。
15)メトリックとアラートの例(アイデア)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16)予測プログラムKPI
インシデント前の検出率。
Avgリードインシデント前の時間。
P1/P2 QoQの削減
MTTR(初期のコンテキストのために期待されています)。
False Alarm Rate/Alert Fatigue(安定→)。
コスト回避。
17)速い開始(調理法)
1.p99/lagおよびSLO-burnのグラデーションルールを有効にします。
2.プロバイダの複合条件を追加します。
3.述語をphicheflagsとpre-scaleにリンクします。
4.予測→アクション→効果レポート;
5.1つのドメインのMLパイロット;Precision/Recall後のスケールが大きくなります。
18) FAQ
Q: MLなしで始めるべきところか?
A:季節のベースライン+グラデーション+複合ルール。これにより、合併症のないリコールが顕著に増加します。
Q:民間人の陽性に溺れないにはどうすればいいですか?
A:信号を結合し、ヒステリシスと確認時間を入力し、ドメイン/領域のしきい値を調整し、PrecisionとAlert Fatigueを評価します。
Q:最初にどのアクションを自動化するのですか?
A:安全でリバーシブル:事前スケール、キャッシュ/劣化、一時停止/ロールバックのカナリア、確認された信号のスイッチングプロバイダ。