インシデントと事故対応
(事業・管理)
1)定義と目的
インシデント-SLO/セキュリティ/コンプライアンスに違反したり、顧客、お金、データ、評判にリスクをもたらすイベント。
反応の目標:迅速にサービスを復元し、損傷を最小限に抑え、証拠を修正し、透明に通信し、繰り返しを防ぐ。
主な原則
最初に安全:特徴上の人々/データ/お金を保護します。
窒息する喉:1人のインシデントコマンダー(IC)が決定を下します。
実行可能になりました:各仮説に続いて、テスト/アクションが続きます。
証拠は重要です:すべてが記録され、アーティファクトが署名され、タイムラインが詳細です。
2)分類(重大度と優先度)
トリガー:SLO違反、アラートルール、手動レポート、法的インシデント(DPO/CCO)。
3)役割と責任(RACI)
インシデントコマンダー(A)-インシデントリーダー、タスク設定、意思決定、長いインシデントのためのIC変更。
Tech Lead (R)-技術診断/修正、SRE/エンジニアリング調整。
Comms Lead (R)-ステータスページの所有者であるステータスアップデート(内部/外部)を書き込みます。
Scribe (R)-プロトコル、タイムライン、アーティファクトの収集。
セキュリティ/法的(セキュリティケースのC/A)-リスク評価、必須通知。
カスタマーサポート(C)-応答テンプレート、チケットルーティング。
パートナー連絡(C)-プロバイダ/テナントとのコミュニケーション。
管理(I)-情報、ビジネスの意思決定(ローン/補償)。
4)最初の15分(テンプレート)
1.ICを割り当て、インシデントカード(チャットチャンネル、ビデオブリッジ、Jira/トラッカー)を開きます。
2.SEVを割り当て、SLO症状を修正します(正確に違反されているもの)。
- runbooks/runesを含んで下さい:サーキットブレーカ、スロットリング、ルートの切換え、一時停止のプロモーション;
- 妥協の場合-キルスイッチの機密機能。
- 4.コマンド:Tech Lead-Diagnostics;Comms-「テクニカルホールド」(10〜15分で-最初の更新)。
- 5.仮説の特定(3つの最大)、所有者の割り当て、検証のタイマーの設定(5〜10分)。
- 6.アーティファクトの収集:メトリックのスナップショット、構成、リリースハッシュ、'trace_id'のログ、領収書。
5)最初の時間(型紙)
コミュニケーションv 1(15-20分):事実、到達、症状、私たちが何をするか、次のアップデート。憶測はありません。
インシデント境界:影響を受けるリージョン/テナント/チャンネル/バージョン。
ダメージコントロール:一時的なキャップ/制限、「騒々しい」統合の切断、劣化モードの活性化。
フォレンジック:ログの回転を凍結し、アーティファクト(WORM/署名)を保護します。
回復ロードマップ:チェックポイント付きのT+30/T+60。
6)コミュニケーションとステータスページ
内部間隔:P1-15分毎、P2-30-60分。
外部:ステータスページ/テナント/SLAパートナー。
- あなたが見ることができるもの:「X: YY UTCでは、EU地域でのチェックアウト障害の増加(p95> 250ミリ秒)」
- 影響を受ける:「A/B/C演算子~トラフィックの40%」
- 私たちは何をすべきか:"代替ルート、スロットルプロモーションが含まれていました。私たちはプロバイダーと協力しPSP-1"
- データ/締め切り:「15分で次の更新」
- 補償:「インシデントの終了後、SLAごとにクレジットノートを適用する」
7)プレイブック(iGaming/fintechの参考文献)
PriceMismatch (showcase ≠ checkout):キャッシュ力障害、'fx_version/tax_rule_version'の和解、動的プロモーションフリーズ、ポリシーの不一致補償。
WebhookLag(パートナー/アフィリエイト):労働者のスケーリング、バッチの増加、優先度の再試行、新規契約の一時的な上限。
支払いの停止/PSPの劣化:バックアップPSPへの切り替え、クライアントタイムアウトの削減、手動キューの清算、隔離中の灰色のトランザクション。
RTPドリフト:ボーナス一時停止、支払い/バージョンチェック、モニタリングウィンドウ拡張、RTPプロファイルのロールバック。
詐欺スパイク:速度/限界を引き締め、追加のKYCチェックを含め、疑わしいコホートを隔離し、手動で高い賞金を確認します。
データ/PII露出:システムの分離、DPO/法的通知、影響を受けるレコードの在庫、タイムラインによる規制通知。
8)ツールとルーン(自動操作)
プロモーションの一時停止、再ルート、リミットを上げる、ロールバック、フラッシュキャッシュ、Webhookを無効にする、セーフモードを有効にします。
ガードレール:「サドル」に対する保護-ロールバックは制限され、ログは署名され、各アクションはIC/Scribeを↔します。
Provability: DSSE署名、スナップショットハッシュ、Merkleログスライス。
9)インシデントの終了
基準:SLOの復元、キューの交換、データ/お金の調整、リスクの閉鎖、通信の送信。
閉会の儀式:最終状態の更新、固定されたタイムライン、影響のリスト、原因の予備仮説、死後の日付が割り当てられました。
10)死後(料金なし)
言葉:P1-3仕事日以内に;P2-5仕事日。
コンテンツ:ファクト/タイムライン、根本原因(5 Whys/FRAM)、インパクト(SLO、金融、顧客)、動作していないもの(所有者、用語、測定可能な効果)。
有効性チェック:30-60日後-パフォーマンスとメトリックのレビュー(再現性、MTTR、アラートノイズ)。
11)インシデント管理メトリックとSLO
MTTD/MTTA/MTTR、 Change Failure Rate、 Time to Comms v1、% auto-allowed (runes)。
アラートノイズ:無関係な信号の割合、コールシフトあたりのページ。
リピートインシデント:90日間のリピートの割合。
死後のSLA:時間通りに完了/閉鎖されたの割合。
SLO反応:P1-最初の通信≤ 15分;MTTR ≤ 60分;アーティファクトの完全性=100%。
12)法律/コンプライアンス/プライバシー
法的通知:リーク/インシデントのためのローカル規制当局のタイミング。
PII最小化:承認されたジャブを介してのみプライマリへのアクセス。トークン化/マスキング。
アーティファクトストレージ:WORMログ、管轄による保存期間;アクセス制御(RBAC/ABAC、 JIT)。
取引相手:契約SLA、エスカレーションプロセス、手続領収書。
13)義務とエスカレーションの組織
24 × 7オンコール:役割による回転(SRE、アプリ、データ、セキュリティ、支払い)。
エスカレーションマトリックス:地域/製品/プロバイダの誰;重複した連絡先(チャット/音声/SMS)。
演習(GameDays):シミュレーション-PSPドロップ、リトレイ雪崩、価格のずれ、重要な妥協、地域の失敗。
14)インシデントのダッシュボード
Heat (now): SLOステータス、p95/p99、リージョン/テナントのマップ、タスクキュー、収集されたアーティファクト/not。
履歴:インシデントタイプによるトレンド、ルーン効率、原因再発。
品質管理:タイムラインの完全性、死後の「カバレッジ」、SLAコミュニケーション。
15)実装チェックリスト
- SEVスケールとSLOトリガーを承認します。
- 役割(IC/Tech/Comms/Scribe/Sec/Legal)と回転を24 × 7に割り当てます。
- インシデントカードテンプレートとステータスページを1つ起動します。
- Playbook (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII)を説明します。
- 監査と赤いボタンでルーンを実装します。
- WORM/Signatures/Artifact Collectionを有効にします。
- 通信手順(内部/外部)、SLA更新。
- 死後のプロセスとテンプレート;アクション項目実行のKPI。
- GameDays毎月;インシデントトレンドの四半期ごとのレビュー。
- ダッシュボードIRメトリクス (MTTA/MTTR/Noise/Repeat/Comms SLA)。
16) FAQ
なぜ「ICだけ」なのか?
単一の決定点は混乱を取り除き、反応を加速します。
いつ公表するのですか?
確認された事実と安定化計画があるとすぐに。規制の期限を評価します。
さらに重要なのは、修正やレポートですか?
まず、回復とセキュリティ。並行して-アーティファクトのコレクション。レポート-安定化後。
すべてを自動化することは可能ですか?
いいえ、しかし、ルーンは「頻繁で簡単な」ステップを閉じます。残りは明確なプレイブックとトレーニングを通してです。
要約:強力なインシデントレスポンスは、PagerDutyとチャットチャンネルだけではありません。これは、早い最初の15分、制御ルーン、透明なコミュニケーション、証明可能性と必須の死後の法医学の役割の規律です。この回路を使用すると、MTTRを削減し、お金とデータを保護し、顧客と規制上の信頼を高めます。