对事故和事故的反应
(部分: 业务和管理)
1)定义和目标
事件是违反SLO/安全/合规性或对客户,金钱,数据和声誉构成风险的事件。
反应目标:迅速恢复服务,最大限度地减少损害,记录证据,透明交流并防止重复。
关键原则
安全第一:保护人员/数据/金钱比功能更重要。
One throat to choke:一个事件指挥官(IC)做出决定。
现在可操作:每个假设都伴随着检查/动作。
Evidence matters:一切都是合成的,工件被签名,时间线是详细的。
2)分类(severity和优先级)
触发因素:SLO违规,警戒规则,手动复印,法律事件(DPO/CCO)。
3)角色和责任(RACI)
事件指挥官(A)是事件负责人,负责任务,决策,在长期事件中更改IC。
技术负责人(R)-技术诊断/虚构,SRE/工程协调。
Comms Lead (R)-写状态更新(内部/外部),状态页的所有者。
Scribe(R)是协议,时间线和人工制品收集。
Security/Legal(证券桉例的C/A)-风险评估,强制通知。
客户支持(C)-响应模板、点播路由。
合作伙伴Liaison(C)-与提供商/tenant进行通信。
管理(I)-举报,业务决策(贷款/报销)。
4)前15分钟(模板)
1.指定IC并打开事件卡(聊天频道、视频主机、Jira/Tracker)。
2.分配SEV并用SLO症状(确切地说是受损的)进行修复。
- 包括runbooks/符文:巡回赛决胜局,trottling,路线切换,暂停促销活动;
- 当受到损害时-kill-switch敏感功能。
- 4.命令:技术领导-诊断;Comms是"技术骗局"(10-15分钟-第一次更新)。
- 5.定义假设(三个最大值),指定所有者,将计时器进行检查(5-10分钟)。
- 6.收集工件:指标,configi,发行版哈希,带有"trace_id"的日志的快照,收据。
5)第一个小时(模板)
通讯v1 (15-20分钟):事实,覆盖范围,症状,我们做什么,下次更新。没有猜测。
事件边界:哪些区域/tenant/频道/版本受到影响。
损害控制:时间帽/限制,禁用"嘈杂"整合,启用降级模式。
Forenzika:冻结日志旋转,保护工件(WORM/签名)。
恢复路线图:T+30/T+60带支票。
6)通讯和状态页面
内部间隔:每15分钟P1,P2-30-60分钟。
外部:状态-页面/tenant/SLA合作伙伴。
- 看到:"X:YY UTC在EU地区增加故障检查(p95> 250毫秒)"
- 谁受影响:"A/B/C运营商,~ 40%的流量"
- 我们做什么:"包括替代路线,trottling促销活动;与提供商合作PSP-1"
- 数据/截止日期:"15分钟后下一次更新"
- 赔偿:"事件结束后根据SLA适用信用证"
7)花花公子(iGaming/fintech的参考)
PriceMismatch(店面≠检查):高速缓存强制失效、'fx_version/tax_rule_version'对账、冻结动态促销、补偿政策差异。
WebhookLag(合作伙伴/附属机构):扩大订户规模,增加订户数量,优先转发,为新订户临时盖帽。
Payments Outage/PSP降级:切换到备用PSP,减少客户计时,手动队列清算,"灰色"隔离交易。
RTP漂移:暂停奖金,检查支付表/版本,扩展监视窗口,回滚RTP配置文件。
Fraud Spike:收紧速度/限制,包括额外的KYC检查,隔离可疑队列,手动咆哮高涨。
Data/PII Exposure:系统隔离、DPO/法律通知、受影响记录清单、监管时间表通知。
8)工具和符文(自动操作)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Gward Rails:防止"马鞍"-回扣有限,日志签名,每个动作↔ IC/Scribe。
可证明性:DSSE签名,snapshot哈希,Merkle刻录日志。
9)事件结束
标准:SLO恢复,队列还清,数据/金钱核对,风险关闭,通信发送。
闭幕仪式:最后状态更新,固定时间线,影响力列表,初步原因假设,指定了后太平间日期。
10)后太平间(无指控)
期限:P1在3个工作日内;P2-5个工作日。
内容:事实/时间线,根本原因(5 Whys/FRAM),影响(SLO,财务,客户),有效/不有效,动作项目(所有者,期限,可测量的效果)。
有效性检查:30-60天后-执行咆哮和度量(重复性,MTTR,噪音等)。
11)度量和SLO事件管理
MTTD/MTTA/MTTR,更改失败率,通勤时间v1,自动允许的百分比(符文)。
警报噪音:无关信号的一小部分,按呼叫分页。
Repeat Incidents:90天内重播的份额。
Mortem后SLA:按时完成/关闭的比例。
反应SLO:P1-首次通信≤ 15分钟;MTTR ≤ 60分钟;工件的完整性=100%。
12)法律/合规/隐私
法律通知:当地监管机构泄漏/事件的时间表。
PII最小化:仅通过批准的乔巴进入初选;令牌/掩码。
文物存储:WORM日志,司法管辖区的保留期;访问控制(RBAC/ABAC, JIT)。
交易对手:合同SLA,升级过程,诉讼收据。
13)安排值班和升级
24 × 7通话:按角色轮换(SRE、App、Data、Security、Payments)。
升级矩阵:谁代表区域/产品/提供商;重复联系人(聊天/语音/短信)。
演习(GameDays):模拟是PSP的下降,复古雪崩,价格的争吵,钥匙的损害,区域的故障。
14) Dashbords事件
热(现在):SLO状态,p95/p99,区域/tenant地图,任务队列,文物收集/不收集。
历史:事件类型趋势,符文效率,原因重复性。
质量控制:时间线的完整性,后面的"覆盖",通信的SLA。
15)实施支票
- 批准SEV量表和SLO触发器。
- 任命角色(IC/Tech/Comms/Scribe/Sec/Legal)和轮换24 × 7。
- 运行单个事件卡模板和状态页面。
- 描述花花公子(PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII)。
- 使用审核和"红色按钮"实现符文。
- 包括强制政策:WORM/签名/文物收集。
- 《通信条例》(内部/外部)。,更新的SLA。
- 后处理过程和模板;KPI执行动作项目。
- GameDays每月;事件趋势季度概述。
- dashboard上的IR度量(MTTA/MTTR/Noise/Repeat/Comms SLA)。
16) FAQ
为什么"IC One"?
一个决策点消除溷乱,加快反应。
什么时候公开宣布?
一旦有确凿的事实和稳定计划。评估监管时间表。
更重要的是虚假或报告?
首先是恢复和安全。并行-收集文物。报告是在稳定之后。
一切都可以自动化吗?
不,但是符文关闭了"频繁而简单"的步骤。其余的是通过清晰的花花公子和训练。
简历:强大的事件响应不仅仅是PagerDuty和聊天频道。这些是角色纪律,快速的前15分钟,可管理的符文,透明的通信,具有可证明性的伪装和强制性的后太平间。通过这样的回路,您可以降低MTTR,保护金钱和数据,并提高客户和监管机构的信心。