事後分析

1）為什麼需要事後分析

事後分析（mortem/AAR）是組織故障後培訓的結構化過程。目的不是尋找罪魁禍首，而是確定根源和促成因素，並鞏固可衡量的行動（CAPA），這些行動通過改善SLO，MTTR和客戶/監管機構的信任來降低事件再次發生的風險和成本。

2）原則（Just Culture）

無罪：分析系統、解決方案和上下文而不是個性。
事實比觀點更重要：時間線，標誌，度量，步伐，變化工件。
E2E外觀：從客戶端癥狀到內部成癮和外部提供者。
可驗證性：每個假設都通過實驗/數據得到支持。
循環閉合：CAPA →分析→檢查點→重新檢查。

3）何時運行解析以及哪些格式是

強制性：SEV-0/1；違反SLA/監管要求；數據泄漏；有意義的公關風險。
加速（光）：有明顯影響或反復癥狀的SEV-2。
通訊AAR：如果故障影響了狀態頁面/支持,我們檢查升級的SLA和消息質量。

時間：48-72小時的草稿，最終版本-最多5個工作日（除非另有規定）。

4）角色和責任

分析所有者（RCA Lead）：組織過程、主持會議、負責報告的質量和CAPA。
事件指揮官（IC）：提供事件事實和解決方案。
技術領導者（按系統）：分析支持人工制品的原因。
Comms/Support/Legal：評估通信和合規要求。
Scribe：協議，收集證據，遵守結構。
產品/業務攤販：對客戶/營業額的影響,CAPA優先級。

5）準備： 會議前收集的內容

時間線（UTC）：T0檢測→ Tn恢復；發行版/幻燈片/配音，提供商狀態。
可觀察性數據：SLI/SLO圖形，error-rate，percentiles，logi，跟蹤和截圖。
更改上下文：引用PR/dploy，DB遷移，幻燈片，工作計劃。
影響：受影響的隊列/地區/提供商,停機時間,SLA學分。
通訊：狀態頁面上的草稿/帖子，劄幌響應，內部公告。
政客/花花公子：在出現偏差的過程中應該發生什麼。

6）分析技術（選擇組合）

5 Why：快速打開因果鏈（風險-過度簡化）。
石川圖（Fishbone）： People/Process/Platform/Policy/Partner/Product。
故障樹分析（FTA）：從事件演繹到多種原因（AND/OR）。
變化分析：事件期間發生了什麼變化vs穩定狀態。
Causal Graph：復雜微服務和外部依賴性的因果關系圖。
《人類因素評論》：疲勞，信息噪音，無關緊要的運行手冊。

7）報告結構（模板）

1.執行摘要：什麼時候，誰受到影響，最終狀態。
2.影響：SLI/SLO，用戶，區域/提供商，停機時間，財務/監管影響。
3.時間線（UTC）：關鍵事件、發布、IC解決方案、通信。
4.觀察和數據：圖形，標誌，步道，誹謗/圖。
5.假設和驗證：接受/拒絕，引用實驗/模擬。
6.根源：系統/流程/技術（清晰的措辭）。
7.促成因素：為什麼之前沒有註意到/停止。
8.什麼有效/什麼行不通：過程，工具，人。
9.CAPA：具有所有者/時限/成功指標的糾正和警告措施。
10.驗證計劃：D+14/D+30檢查點，關閉標準。
11.外部版本：客戶端/調節（無敏感數據）。
12.應用程序：工件，提要/公關鏈接，dashbords截圖。

8）CAPA： 如何使行動成為工作

每個動作都具有所有者，截止日期和KPI效果（例如，將更改失敗率降低X％，零重復90天，減少峰值burn-rate）。
將Corrective（修復）和Preventive（防止）措施分開。
與策略即代碼相關聯：Alerts、SLO門、自動軌道/限值、GitOps。
CAPA在每周的運營會議上通過評論進入公眾支持。

9）檢查效果並關閉

檢查點：D+7（中間），D+14/D+30（主要），D+90（總數）。
驗證：測試/模擬（遊戲日），陰影流量，觀察力（綠色區域穩定的SLI），沒有復發。
只有在執行CAPA和確認的指標時才能關閉。

10）溝通和合規性

內部：產品/支持/管理的清晰狀態，滿足升級的SLA。
外部：狀態頁面，發送給客戶/合作夥伴；沒有指控的語言，明確的預防計劃。

監管： 通知的時機,實例的去個性化,報告和工件的不變存儲.

11）過程成熟度度量

報告發布時間：事實vs SLA（例如≤5工作日）。
CAPA完成率：按時關閉的活動的百分比。
Reopen rate： 90天重播事件百分比。
系統原因與「人為錯誤」的比例。
Alert衛生：減少虛假的呼聲，增加覆蓋的runbook'ami alerts。
更改DORA指標：MTTR，更改失敗率之前/之後。

12）支票單

在分析之前

已確定RCA的所有者和參與者的組成。
收集時間線和工件（日誌/圖形/版本/標誌）。
按隊列/區域/提供商評估影響。
準備了Impact和Timeline部分的草稿。
相關政策/花花公子與實際行動相匹配。

在此期間

記錄了接受/拒絕的假設和依據。
已確定根源和促成原因。
制定了帶有KPI和時間表的CAPA計劃。
為外部各方商定報告的版本（如有必要）。

之後

報告按時發布，按角色訪問。
CAPA在逆止器中列出，業主確認。
已指定檢查點和迷你模擬進行驗證。
更新了runbook/SOP/Alerta/文檔。

13）反模式

「Man X是罪魁禍首」-沒有系統原因→重播。
沒有CAPA或沒有所有者/時間表的報告-紙張。
沒有事實/文物-感覺上的結論。
過於通用的語言（「DB過載」）沒有具體更改。
忽略通信和合規性是聲譽風險。
沒有效果檢查的關閉是在幾周後復發。

14）迷你模板

報告上限


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

根原因的表述（示例）

💡 組合：（1）將卡驗證器↑ p95更改為1。2 c, （2）定時到PSP-A 1 c沒有預算中繼,（3）沒有金絲雀提供商。這導致了大規模的停工和付款成功的下降。

CAPA（片段）

在PSP-A （1%→5%→25%）中啟用金絲雀路由,所有者：@payments-tl, do： 2025-11-07, KPI：提供商發布30天時為零P1事件。
重新配置總時間≤ SLA 800毫秒，所有者：@platform-sre，直到：2025-11-05，KPI：p99 <600毫秒。
通過BIN隊列添加業務SLI，所有者：@data-lead，直到：2025-11-10，KPI：檢測降解<5分鐘。

15）嵌入日常實踐

每周RCA評論：CAPA狀態，新課程，流程更新。
Wiki中帶有標簽（服務，SEV，原因）和搜索的後太平間目錄。
2-4周後根據事件進行模擬以驗證措施。
在通話中包含課程並更新培訓腳本。

16）結果

事後分析是系統改進的機制。當事實收集、因果關系得到證實、行為可衡量和驗證、組織積累可靠性運營資本時：MTTR下降和反復發生事件,發布的可預測性和客戶信心不斷提高。

事後分析

在此期間

之後

根原因的表述（示例）

CAPA（片段）

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案