對事故和事故的反應
(部分: 業務和管理)
1)定義和目標
事件是違反SLO/安全/合規性或對客戶,金錢,數據和聲譽構成風險的事件。
反應目標:迅速恢復服務,最大限度地減少損害,記錄證據,透明交流並防止重復。
關鍵原則
安全第一:保護人員/數據/金錢比功能更重要。
One throat to choke:一個事件指揮官(IC)做出決定。
現在可操作:每個假設都伴隨著檢查/動作。
Evidence matters:一切都是合成的,工件被簽名,時間線是詳細的。
2)分類(severity和優先級)
觸發因素:SLO違規,警戒規則,手動復印,法律事件(DPO/CCO)。
3)角色和責任(RACI)
事件指揮官(A)是事件負責人,負責任務,決策,在長期事件中更改IC。
技術負責人(R)-技術診斷/虛構,SRE/工程協調。
Comms Lead (R)-寫狀態更新(內部/外部),狀態頁的所有者。
Scribe(R)是協議,時間線和人工制品收集。
Security/Legal(證券案例的C/A)-風險評估,強制通知。
客戶支持(C)-響應模板、點播路由。
合作夥伴Liaison(C)-與提供商/tenant進行通信。
管理(I)-舉報,業務決策(貸款/報銷)。
4)前15分鐘(模板)
1.指定IC並打開事件卡(聊天頻道、視頻主機、Jira/Tracker)。
2.分配SEV並用SLO癥狀(確切地說是受損的)進行修復。
- 包括runbooks/符文:巡回賽決勝局,trottling,路線切換,暫停促銷活動;
- 當受到損害時-kill-switch敏感功能。
- 4.命令:技術領導-診斷;Comms是「技術騙局」(10-15分鐘-第一次更新)。
- 5.定義假設(三個最大值),指定所有者,將計時器進行檢查(5-10分鐘)。
- 6.收集工件:指標,configi,發行版哈希,帶有「trace_id」的日誌的快照,收據。
5)第一個小時(模板)
通訊v1 (15-20分鐘):事實,覆蓋範圍,癥狀,我們做什麼,下次更新。沒有猜測。
事件邊界:哪些區域/tenant/頻道/版本受到影響。
損害控制:時間帽/限制,禁用「嘈雜」整合,啟用降級模式。
Forenzika:凍結日誌旋轉,保護工件(WORM/簽名)。
恢復路線圖:T+30/T+60帶支票。
6)通訊和狀態頁面
內部間隔:每15分鐘P1,P2-30-60分鐘。
外部:狀態-頁面/tenant/SLA合作夥伴。
- 看到:「X:YY UTC在EU地區增加故障檢查(p95> 250毫秒)」
- 誰受影響:「A/B/C運營商,~ 40%的流量」
- 我們做什麼:"包括替代路線,trottling促銷活動;與提供商合作PSP-1"
- 數據/截止日期:「15分鐘後下一次更新」
- 賠償:「事件結束後根據SLA適用信用證」
7)花花公子(iGaming/fintech的參考)
PriceMismatch(店面≠檢查):高速緩存強制失效、'fx_version/tax_rule_version'對賬、凍結動態促銷、補償政策差異。
WebhookLag(合作夥伴/附屬機構):擴大訂戶規模,增加訂戶數量,優先轉發,為新訂戶臨時蓋帽。
Payments Outage/PSP降級:切換到備用PSP,減少客戶計時,手動隊列清算,「灰色」隔離交易。
RTP漂移:暫停獎金,檢查支付表/版本,擴展監視窗口,回滾RTP配置文件。
Fraud Spike:收緊速度/限制,包括額外的KYC檢查,隔離可疑隊列,手動咆哮高漲。
Data/PII Exposure:系統隔離、DPO/法律通知、受影響記錄清單、監管時間表通知。
8)工具和符文(自動操作)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Gward Rails:防止「馬鞍」-回扣有限,日誌簽名,每個動作↔ IC/Scribe。
可證明性:DSSE簽名,snapshot哈希,Merkle刻錄日誌。
9)事件結束
標準:SLO恢復,隊列還清,數據/金錢核對,風險關閉,通信發送。
閉幕儀式:最後狀態更新,固定時間線,影響力列表,初步原因假設,指定了後太平間日期。
10)後太平間(無指控)
期限:P1在3個工作日內;P2-5個工作日。
內容:事實/時間線,根本原因(5 Whys/FRAM),影響(SLO,財務,客戶),有效/不有效,動作項目(所有者,期限,可測量的效果)。
有效性檢查:30-60天後-執行咆哮和度量(重復性,MTTR,噪音等)。
11)度量和SLO事件管理
MTTD/MTTA/MTTR,更改失敗率,通勤時間v1,自動允許的百分比(符文)。
警報噪音:無關信號的一小部分,按呼叫分頁。
Repeat Incidents:90天內重播的份額。
Mortem後SLA:按時完成/關閉的比例。
反應SLO:P1-首次通信≤ 15分鐘;MTTR ≤ 60分鐘;工件的完整性=100%。
12)法律/合規/隱私
法律通知:當地監管機構泄漏/事件的時間表。
PII最小化:僅通過批準的喬巴進入初選;令牌/掩碼。
文物存儲:WORM日誌,司法管轄區的保留期;訪問控制(RBAC/ABAC, JIT)。
交易對手:合同SLA,升級過程,訴訟收據。
13)安排值班和升級
24 × 7通話:按角色輪換(SRE、App、Data、Security、Payments)。
升級矩陣:誰代表區域/產品/提供商;重復聯系人(聊天/語音/短信)。
演習(GameDays):模擬是PSP的下降,復古雪崩,價格的爭吵,鑰匙的損害,區域的故障。
14) Dashbords事件
熱(現在):SLO狀態,p95/p99,區域/tenant地圖,任務隊列,文物收集/不收集。
歷史:事件類型趨勢,符文效率,原因重復性。
質量控制:時間線的完整性,後面的「覆蓋」,通信的SLA。
15)實施支票
- 批準SEV量表和SLO觸發器。
- 任命角色(IC/Tech/Comms/Scribe/Sec/Legal)和輪換24 × 7。
- 運行單個事件卡模板和狀態頁面。
- 描述花花公子(PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII)。
- 使用審核和「紅色按鈕」實現符文。
- 包括強制政策:WORM/簽名/文物收集。
- 《通信條例》(內部/外部)。,更新的SLA。
- 後處理過程和模板;KPI執行動作項目。
- GameDays每月;事件趨勢季度概述。
- dashboard上的IR度量(MTTA/MTTR/Noise/Repeat/Comms SLA)。
16) FAQ
為什麼「IC One」?
一個決策點消除混亂,加快反應。
什麼時候公開宣布?
一旦有確鑿的事實和穩定計劃。評估監管時間表。
更重要的是虛假或報告?
首先是恢復和安全。並行-收集文物。報告是在穩定之後。
一切都可以自動化嗎?
不,但是符文關閉了「頻繁而簡單」的步驟。其余的是通過清晰的花花公子和訓練。
簡歷:強大的事件響應不僅僅是PagerDuty和聊天頻道。這些是角色紀律,快速的前15分鐘,可管理的符文,透明的通信,具有可證明性的偽裝和強制性的後太平間。通過這樣的回路,您可以降低MTTR,保護金錢和數據,並提高客戶和監管機構的信心。