リアルタイムアラート
1)目的と原則
目的:SLO、収益およびコンプライアンスを脅かすイベントの適時、正確かつターゲットを絞った方法で適切な人/システムに通知し、正しいアクション(手動/自動)をトリガーする。
原則:SLOファースト、ノイズ最小化、説明可能性、コンテキスト、ビジネスインパクトによる優先順位付け、「1つの信号-1つの理解可能なアクション」。
2)シグナルタクソノミ
SLO信号:クリティカルパス(ログイン、デポジット、レート、出力)のエラー予算のバーンレート。
KRI:早期リスク指標(銀行/GEOによるPSP認証成功率の低下、消費者-遅延の増加、p99%)。
イベント:依存フラグ、フェイルオーバー、手動スイッチ、保護アクティベーション(rate-limit、 WAF)。
セキュリティ/コンプライアンス:機密運用、PII輸出、SoD違反のスパイク。
3)アラートレベルとSLA
4)ソースとコンテキストの相関
テレメトリー:メトリック/トレイル/ログ、合成およびRUM。
ディレクトリ:CMDB/サービスマップ、所有者、依存関係。
変更:リリース、フィーチャーフラグ、移行、予定作業。
外部プロバイダ:PSP/KYC/ゲームスタジオ/CDN/WAFステータス。
各アラートは豊かになります:次に何が変わったのですか?(release/feature)、どの依存関係が赤?、どのセグメントが影響を受けますか?(GEO/PSP/銀行/テナント)。
5) SLOアラートルール(コア)
バーンレート:2つの窓(速い1hおよび遅い6-24h)。Pager-同時に超過した場合のみ。
ガードレール:p99/error-rateによるしきい値は、コンテキスト解析トリガーとしてのみ機能し、SLOを置き換えません。
Impakt:評価「聴衆のシェア×お金/鉱山× regulyatorika」→P1-P4レベル。
6)騒音低減
重複排除-サービス/テナント/原因によるグループ化;数十の信号の代わりに1つのインシデントを共有します。
ヒステリシス:N-of-M確認、異常の最小持続時間。
Silences/Meats:計画された作品、既知の事件、"follow-the-sun'ウィンドウ。
レート制限とクォータ:ソース/ラベル/テナントごと;「嵐」に対する保護。
Cardinality Reduction: userId/sessionIdはアラートラベルで禁止されています。
7)ルーティングとエスカレーション
コンテキストによるルーティング:ドメイン(Payments/Games/Core)、環境(prod/stage)、地域、重大度。
エスカレーション:t0-オンコールL1;t0+X-L2/domain所有者;t0+Y-IC/マニュアル。X/Y時間はP1-P3によって異なります。
チャンネル別の複製:pager+チャットP1;P3でチャット/チケット。
シフト変更:コンテキストの自動転送(タイムライン、実行されたアクション、仮説)。
8)自動修復
支払い:PSPは、健康×手数料×変換、銀行/方法の制限、ジッタとレトライで切り替えます。
ゲーム/ベット:キャッシュウェッジ/リミット書き込み操作を有効にします。
インフラ:トラフィックの避難、労働者の劣化の再起動、遅延によるスケーリング。
安全/コンプライアンス:PIIエクスポートを一時的に閉じ、P1操作のデュアルコントロールを入力します。
自動アクション-ロールバックポリシーと返品条件があります。
9) Runbook最初の経験
各アラートはランブックに関連付けられています:目標、クイック診断(3-5チェック)、修正/ロールバックステップ、連絡先、ダッシュボードへのリンク、ステータスページ。チャット/ページャーでは、短いアクションカードを表示します。
10)彼は政治を呼び出す
ローテーション24 × 7、ドメインカバレッジ(支払い/ゲームコア/SRE)。
P1の「セカンドオンコール」、varルームの2人のルール。
静かな時間と太陽の窓。
トレーニング:四半期ごとのエクササイズ(卓上/ゲームデー)、シャドウシフト。
インシデント後のクレジット(コンプタイム)が燃え尽きないようにします。
11)統合
インシデント管理:カードの自動作成、テープの更新、IC/CLの役割、タイマー。
ステータスページ:テンプレートとローカライズでP1/P2を(Comms Lead経由で)公開します。
リリース:SLIによるrelease-gates、アラートによる自動停止/ロールバック。
ディレクトリ:所有者、CMDB、プロバイダの連絡先。
12)アラート例(iGaming)
1.PSP-1 TRのAuth-successful: 10分で25%
トランザクションの30%以上がカバーされている場合のP2→P1。
自動アクション:トラフィックPSP-2/3の再配布;簡略化された3DS Partner Managerアラートを有効にします。
2.p99 「stavka→settl」> 3 EUの×規範
理由:ラグレプリケーション、ワーカーのキュー。
自動アクション:スケールアウトワーカー、ウォームアップキャッシュ、一時的に重要でない機能をオフにします。
3.PIIスパイクのエクスポート
チケット/承認がない場合のP1。
自動アクション:ダウンロードブロック、コンプライアンス通知、SoDチェック。
13)アラート品質指標(KPI/KRI)
MTTA-Comms/MTTA-Ops:反応/最初のアクションへの時間。
Precision/Recall(アラート↔インシデント)、False Alarm Rate。
SLO違反前のリードタイム、TTD(検出時間)。
ペガー疲労:アラート/人/週、夜間通話、「ダミー」の割合。
自動修正率:人なしで自動反応によって閉じられた問題の割合。
老化:掛かるP3/P4> X日の割合。
14)コスト管理
アラート/ソースのクォータ。冗長ラベルを切断します。
ダウンサンプリングとメトリックアグリゲーション、トラックサンプリング;クラスによって。
通常のコストレビュー:$/alert、 $/SLI-dashboard、 「heavy」シリーズ。
15)プライバシーとコンプライアンス
アラートとラベルのテキストにPIIがない。識別子のトークン化。
アクセスポリシー(RBAC/ABAC)、アラート設定時のSoD。
監査ルールの変更、バージョン管理、テストおよび差分。
16)実装ロードマップ(6-10週間)
ネッド。1-2: SLI/KRIディレクトリ、オーナーマップ、P1-P4レベル、最初のSLOルール(バーンレート)。
ネッド。3-4: dedup/hysteresis/silences、インシデントシステムおよびチャットとの統合、ランブックバンドル。
ネッド。5-6:支払い/キュー、リリースゲート、ステータスページフィードの自動操作。
ネッド。7-8:コンテキスト(リリース/機能フラグ/プロバイダ)、PSPヒートカード×銀行× GEO、 P1/P2演習。
ネッド。9-10: FinOpsアラート、KPIダッシュボード、しきい値とクォータの改訂、通話中のトレーニング。
17)アーティファクトとパターン
Alert Spec:メートル/条件、ウィンドウ、抑制、所有者、runbook、自動操作。
ルーティングマップ:domen→kanal→eskalatsii、バックアップ連絡先。
サイレンスポリシー:ミュートルール(計画的/既知のインシデント)を含めることができます。
通話中のハンドブック:回転、シフト変更、P1/P2チェックリスト、チャンネル。
ポストインシデントパック:アラートアップロード/タイムライン、信号品質分析。
18) Antipatterns
SLO→ノイズと疲労のない「生」p95/p99のページャー。
同じことについての数十の信号(重複排除/相関なし)。
アラートにはrunbookまたはownerはありません。
季節性/セグメンテーション(GEO/PSP/bank/hour)のない「in stone」のしきい値。
自動アクション後のリターンはありません(ロールバック基準はありません)。
PIIとuserIdのラベル→リスクとカーディナリティの爆発。
[結果]
非常に便利なアラートは、SLO中心のパイプラインです。バーンレート、スマートノイズリダクション、明確なルーティングとエスカレーション、ランブックファーストエクスペリエンス、安全な自動操作を備えたコンテキストルールです。このような回路は、ユーザーよりも早く重要なイベントをキャッチし、MTTRを削減し、収益を保護し、同時に「pager-hellish」ルーチンからそれを保護します。