GH GambleHub

事後分析

1)為什麼需要事後分析

事後分析(mortem/AAR)是組織故障後培訓的結構化過程。目的不是尋找罪魁禍首,而是確定根源和促成因素,並鞏固可衡量的行動(CAPA),這些行動通過改善SLO,MTTR和客戶/監管機構的信任來降低事件再次發生的風險和成本。

2)原則(Just Culture)

無罪:分析系統、解決方案和上下文而不是個性。
事實比觀點更重要:時間線,標誌,度量,步伐,變化工件。
E2E外觀:從客戶端癥狀到內部成癮和外部提供者。
可驗證性:每個假設都通過實驗/數據得到支持。
循環閉合:CAPA →分析→檢查點→重新檢查。

3)何時運行解析以及哪些格式是

強制性:SEV-0/1;違反SLA/監管要求;數據泄漏;有意義的公關風險。
加速(光):有明顯影響或反復癥狀的SEV-2。
通訊AAR:如果故障影響了狀態頁面/支持,我們檢查升級的SLA和消息質量。

時間:48-72小時的草稿,最終版本-最多5個工作日(除非另有規定)。

4)角色和責任

分析所有者(RCA Lead):組織過程、主持會議、負責報告的質量和CAPA。
事件指揮官(IC):提供事件事實和解決方案。
技術領導者(按系統):分析支持人工制品的原因。
Comms/Support/Legal:評估通信和合規要求。
Scribe:協議,收集證據,遵守結構。
產品/業務攤販:對客戶/營業額的影響,CAPA優先級。

5)準備: 會議前收集的內容

時間線(UTC):T0檢測→ Tn恢復;發行版/幻燈片/配音,提供商狀態。
可觀察性數據:SLI/SLO圖形,error-rate,percentiles,logi,跟蹤和截圖。
更改上下文:引用PR/dploy,DB遷移,幻燈片,工作計劃。
影響:受影響的隊列/地區/提供商,停機時間,SLA學分。
通訊:狀態頁面上的草稿/帖子,劄幌響應,內部公告。
政客/花花公子:在出現偏差的過程中應該發生什麼。

6)分析技術(選擇組合)

5 Why:快速打開因果鏈(風險-過度簡化)。
石川圖(Fishbone): People/Process/Platform/Policy/Partner/Product。
故障樹分析(FTA):從事件演繹到多種原因(AND/OR)。
變化分析:事件期間發生了什麼變化vs穩定狀態。
Causal Graph:復雜微服務和外部依賴性的因果關系圖。
《人類因素評論》:疲勞,信息噪音,無關緊要的運行手冊。

7)報告結構(模板)

1.執行摘要:什麼時候,誰受到影響,最終狀態。
2.影響:SLI/SLO,用戶,區域/提供商,停機時間,財務/監管影響。
3.時間線(UTC):關鍵事件、發布、IC解決方案、通信。
4.觀察和數據:圖形,標誌,步道,誹謗/圖。
5.假設和驗證:接受/拒絕,引用實驗/模擬。
6.根源:系統/流程/技術(清晰的措辭)。
7.促成因素:為什麼之前沒有註意到/停止。
8.什麼有效/什麼行不通:過程,工具,人。
9.CAPA:具有所有者/時限/成功指標的糾正和警告措施。
10.驗證計劃:D+14/D+30檢查點,關閉標準。
11.外部版本:客戶端/調節(無敏感數據)。
12.應用程序:工件,提要/公關鏈接,dashbords截圖。

8)CAPA: 如何使行動成為工作

每個動作都具有所有者,截止日期和KPI效果(例如,將更改失敗率降低X%,零重復90天,減少峰值burn-rate)。
將Corrective(修復)和Preventive(防止)措施分開。
與策略即代碼相關聯:Alerts、SLO門、自動軌道/限值、GitOps。
CAPA在每周的運營會議上通過評論進入公眾支持。

9)檢查效果並關閉

檢查點:D+7(中間),D+14/D+30(主要),D+90(總數)。
驗證:測試/模擬(遊戲日),陰影流量,觀察力(綠色區域穩定的SLI),沒有復發。
只有在執行CAPA和確認的指標時才能關閉。

10)溝通和合規性

內部:產品/支持/管理的清晰狀態,滿足升級的SLA。
外部:狀態頁面,發送給客戶/合作夥伴;沒有指控的語言,明確的預防計劃。

監管: 通知的時機,實例的去個性化,報告和工件的不變存儲.

11)過程成熟度度量

報告發布時間:事實vs SLA(例如≤5工作日)。
CAPA完成率:按時關閉的活動的百分比。
Reopen rate: 90天重播事件百分比。
系統原因與「人為錯誤」的比例。
Alert衛生:減少虛假的呼聲,增加覆蓋的runbook'ami alerts。
更改DORA指標:MTTR,更改失敗率之前/之後。

12)支票單

在分析之前

  • 已確定RCA的所有者和參與者的組成。
  • 收集時間線和工件(日誌/圖形/版本/標誌)。
  • 按隊列/區域/提供商評估影響。
  • 準備了Impact和Timeline部分的草稿。
  • 相關政策/花花公子與實際行動相匹配。

在此期間

  • 記錄了接受/拒絕的假設和依據。
  • 已確定根源和促成原因。
  • 制定了帶有KPI和時間表的CAPA計劃。
  • 為外部各方商定報告的版本(如有必要)。

之後

  • 報告按時發布,按角色訪問。
  • CAPA在逆止器中列出,業主確認。
  • 已指定檢查點和迷你模擬進行驗證。
  • 更新了runbook/SOP/Alerta/文檔。

13)反模式

「Man X是罪魁禍首」-沒有系統原因→重播。
沒有CAPA或沒有所有者/時間表的報告-紙張。
沒有事實/文物-感覺上的結論。
過於通用的語言(「DB過載」)沒有具體更改。
忽略通信和合規性是聲譽風險。
沒有效果檢查的關閉是在幾周後復發。

14)迷你模板

報告上限


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

根原因的表述(示例)

💡 組合:(1)將卡驗證器↑ p95更改為1。2 c, (2)定時到PSP-A 1 c沒有預算中繼,(3)沒有金絲雀提供商。這導致了大規模的停工和付款成功的下降。

CAPA(片段)

在PSP-A (1%→5%→25%)中啟用金絲雀路由,所有者:@payments-tl, do: 2025-11-07, KPI:提供商發布30天時為零P1事件。
重新配置總時間≤ SLA 800毫秒,所有者:@platform-sre,直到:2025-11-05,KPI:p99 <600毫秒。
通過BIN隊列添加業務SLI,所有者:@data-lead,直到:2025-11-10,KPI:檢測降解<5分鐘。

15)嵌入日常實踐

每周RCA評論:CAPA狀態,新課程,流程更新。
Wiki中帶有標簽(服務,SEV,原因)和搜索的後太平間目錄。
2-4周後根據事件進行模擬以驗證措施。
在通話中包含課程並更新培訓腳本。

16)結果

事後分析是系統改進的機制。當事實收集、因果關系得到證實、行為可衡量和驗證、組織積累可靠性運營資本時:MTTR下降和反復發生事件,發布的可預測性和客戶信心不斷提高。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。