GH GambleHub

事后分析

1)为什么需要事后分析

事后分析(mortem/AAR)是组织故障后培训的结构化过程。目的不是寻找罪魁祸首,而是确定根源和促成因素,并巩固可衡量的行动(CAPA),这些行动通过改善SLO,MTTR和客户/监管机构的信任来降低事件再次发生的风险和成本。

2)原则(Just Culture)

无罪:分析系统、解决方桉和上下文而不是个性。
事实比观点更重要:时间线,标志,度量,步伐,变化工件。
E2E外观:从客户端症状到内部成瘾和外部提供者。
可验证性:每个假设都通过实验/数据得到支持。
循环闭合:CAPA →分析→检查点→重新检查。

3)何时运行解析以及哪些格式是

强制性:SEV-0/1;违反SLA/监管要求;数据泄漏;有意义的公关风险。
加速(光):有明显影响或反复症状的SEV-2。
通讯AAR:如果故障影响了状态页面/支持,我们检查升级的SLA和消息质量。

时间:48-72小时的草稿,最终版本-最多5个工作日(除非另有规定)。

4)角色和责任

分析所有者(RCA Lead):组织过程、主持会议、负责报告的质量和CAPA。
事件指挥官(IC):提供事件事实和解决方桉。
技术领导者(按系统):分析支持人工制品的原因。
Comms/Support/Legal:评估通信和合规要求。
Scribe:协议,收集证据,遵守结构。
产品/业务摊贩:对客户/营业额的影响,CAPA优先级。

5)准备: 会议前收集的内容

时间线(UTC):T0检测→ Tn恢复;发行版/幻灯片/配音,提供商状态。
可观察性数据:SLI/SLO图形,error-rate,percentiles,logi,跟踪和截图。
更改上下文:引用PR/dploy,DB迁移,幻灯片,工作计划。
影响:受影响的队列/地区/提供商,停机时间,SLA学分。
通讯:状态页面上的草稿/帖子,札幌响应,内部公告。
政客/花花公子:在出现偏差的过程中应该发生什么。

6)分析技术(选择组合)

5 Why:快速打开因果链(风险-过度简化)。
石川图(Fishbone): People/Process/Platform/Policy/Partner/Product。
故障树分析(FTA):从事件演绎到多种原因(AND/OR)。
变化分析:事件期间发生了什么变化vs稳定状态。
Causal Graph:复杂微服务和外部依赖性的因果关系图。
《人类因素评论》:疲劳,信息噪音,无关紧要的运行手册。

7)报告结构(模板)

1.执行摘要:什么时候,谁受到影响,最终状态。
2.影响:SLI/SLO,用户,区域/提供商,停机时间,财务/监管影响。
3.时间线(UTC):关键事件、发布、IC解决方桉、通信。
4.观察和数据:图形,标志,步道,诽谤/图。
5.假设和验证:接受/拒绝,引用实验/模拟。
6.根源:系统/流程/技术(清晰的措辞)。
7.促成因素:为什么之前没有注意到/停止。
8.什么有效/什么行不通:过程,工具,人。
9.CAPA:具有所有者/时限/成功指标的纠正和警告措施。
10.验证计划:D+14/D+30检查点,关闭标准。
11.外部版本:客户端/调节(无敏感数据)。
12.应用程序:工件,提要/公关链接,dashbords截图。

8)CAPA: 如何使行动成为工作

每个动作都具有所有者,截止日期和KPI效果(例如,将更改失败率降低X%,零重复90天,减少峰值burn-rate)。
将Corrective(修复)和Preventive(防止)措施分开。
与策略即代码相关联:Alerts、SLO门、自动轨道/限值、GitOps。
CAPA在每周的运营会议上通过评论进入公众支持。

9)检查效果并关闭

检查点:D+7(中间),D+14/D+30(主要),D+90(总数)。
验证:测试/模拟(游戏日),阴影流量,观察力(绿色区域稳定的SLI),没有复发。
只有在执行CAPA和确认的指标时才能关闭。

10)沟通和合规性

内部:产品/支持/管理的清晰状态,满足升级的SLA。
外部:状态页面,发送给客户/合作伙伴;没有指控的语言,明确的预防计划。

监管: 通知的时机,实例的去个性化,报告和工件的不变存储.

11)过程成熟度度量

报告发布时间:事实vs SLA(例如≤5工作日)。
CAPA完成率:按时关闭的活动的百分比。
Reopen rate: 90天重播事件百分比。
系统原因与"人为错误"的比例。
Alert卫生:减少虚假的呼声,增加覆盖的runbook'ami alerts。
更改DORA指标:MTTR,更改失败率之前/之后。

12)支票单

在分析之前

  • 已确定RCA的所有者和参与者的组成。
  • 收集时间线和工件(日志/图形/版本/标志)。
  • 按队列/区域/提供商评估影响。
  • 准备了Impact和Timeline部分的草稿。
  • 相关政策/花花公子与实际行动相匹配。

在此期间

  • 记录了接受/拒绝的假设和依据。
  • 已确定根源和促成原因。
  • 制定了带有KPI和时间表的CAPA计划。
  • 为外部各方商定报告的版本(如有必要)。

之后

  • 报告按时发布,按角色访问。
  • CAPA在逆止器中列出,业主确认。
  • 已指定检查点和迷你模拟进行验证。
  • 更新了runbook/SOP/Alerta/文档。

13)反模式

"Man X是罪魁祸首"-没有系统原因→重播。
没有CAPA或没有所有者/时间表的报告-纸张。
没有事实/文物-感觉上的结论。
过于通用的语言("DB过载")没有具体更改。
忽略通信和合规性是声誉风险。
没有效果检查的关闭是在几周后复发。

14)迷你模板

报告上限


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

根原因的表述(示例)

💡 组合:(1)将卡验证器↑ p95更改为1。2 c, (2)定时到PSP-A 1 c没有预算中继,(3)没有金丝雀提供商。这导致了大规模的停工和付款成功的下降。

CAPA(片段)

在PSP-A (1%→5%→25%)中启用金丝雀路由,所有者:@payments-tl, do: 2025-11-07, KPI:提供商发布30天时为零P1事件。
重新配置总时间≤ SLA 800毫秒,所有者:@platform-sre,直到:2025-11-05,KPI:p99 <600毫秒。
通过BIN队列添加业务SLI,所有者:@data-lead,直到:2025-11-10,KPI:检测降解<5分钟。

15)嵌入日常实践

每周RCA评论:CAPA状态,新课程,流程更新。
Wiki中带有标签(服务,SEV,原因)和搜索的后太平间目录。
2-4周后根据事件进行模拟以验证措施。
在通话中包含课程并更新培训脚本。

16)结果

事后分析是系统改进的机制。当事实收集、因果关系得到证实、行为可衡量和验证、组织积累可靠性运营资本时:MTTR下降和反复发生事件,发布的可预测性和客户信心不断提高。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。