对事故和事故的反应

（部分： 业务和管理）

1）定义和目标

事件是违反SLO/安全/合规性或对客户，金钱，数据和声誉构成风险的事件。
反应目标：迅速恢复服务，最大限度地减少损害，记录证据，透明交流并防止重复。

关键原则

安全第一：保护人员/数据/金钱比功能更重要。
One throat to choke：一个事件指挥官（IC）做出决定。
现在可操作：每个假设都伴随着检查/动作。
Evidence matters：一切都是合成的,工件被签名,时间线是详细的。

2）分类（severity和优先级）

SEV	特征	MTTR目标	示例
P1 / SEV-0	大量不可用/亏损/PII泄漏	≤ 60枚地雷	Checkout不通过；PDn泄漏；不正确的注销
P2 / SEV-1	严重退化/部分区域	≤ 4小时	Lag webhuks，价格不一致；提供商的高错误
P3 / SEV-2	局部降解/错误增长	≤ 24小时	合作伙伴队列过剩；福特信号激增
P4 / SEV-3	次要错误/趋势风险	普兰诺沃	指标偏差、过时证书

触发因素：SLO违规,警戒规则,手动复印,法律事件（DPO/CCO）。

3）角色和责任（RACI）

事件指挥官（A）是事件负责人，负责任务，决策，在长期事件中更改IC。
技术负责人（R）-技术诊断/虚构，SRE/工程协调。
Comms Lead （R）-写状态更新（内部/外部）,状态页的所有者。
Scribe（R）是协议，时间线和人工制品收集。
Security/Legal（证券桉例的C/A）-风险评估,强制通知。
客户支持（C）-响应模板、点播路由。
合作伙伴Liaison（C）-与提供商/tenant进行通信。
管理（I）-举报，业务决策（贷款/报销）。

4）前15分钟（模板）

1.指定IC并打开事件卡（聊天频道、视频主机、Jira/Tracker）。
2.分配SEV并用SLO症状（确切地说是受损的）进行修复。

3.稳定：

包括runbooks/符文：巡回赛决胜局，trottling，路线切换，暂停促销活动；
当受到损害时-kill-switch敏感功能。
4.命令：技术领导-诊断；Comms是"技术骗局"（10-15分钟-第一次更新）。
5.定义假设（三个最大值），指定所有者，将计时器进行检查（5-10分钟）。
6.收集工件：指标，configi，发行版哈希，带有"trace_id"的日志的快照，收据。

5）第一个小时（模板）

通讯v1 （15-20分钟）：事实,覆盖范围,症状,我们做什么,下次更新。没有猜测。
事件边界：哪些区域/tenant/频道/版本受到影响。
损害控制：时间帽/限制，禁用"嘈杂"整合，启用降级模式。
Forenzika：冻结日志旋转,保护工件（WORM/签名）。
恢复路线图：T+30/T+60带支票。

6）通讯和状态页面

内部间隔：每15分钟P1，P2-30-60分钟。
外部：状态-页面/tenant/SLA合作伙伴。

消息模板：

看到："X：YY UTC在EU地区增加故障检查（p95> 250毫秒）"
谁受影响："A/B/C运营商，~ 40%的流量"
我们做什么："包括替代路线，trottling促销活动；与提供商合作PSP-1"
数据/截止日期："15分钟后下一次更新"
赔偿："事件结束后根据SLA适用信用证"

7）花花公子（iGaming/fintech的参考）

PriceMismatch（店面≠检查）：高速缓存强制失效、'fx_version/tax_rule_version'对账、冻结动态促销、补偿政策差异。
WebhookLag（合作伙伴/附属机构）：扩大订户规模,增加订户数量,优先转发,为新订户临时盖帽。
Payments Outage/PSP降级：切换到备用PSP，减少客户计时，手动队列清算，"灰色"隔离交易。
RTP漂移：暂停奖金,检查支付表/版本,扩展监视窗口,回滚RTP配置文件。
Fraud Spike：收紧速度/限制，包括额外的KYC检查，隔离可疑队列，手动咆哮高涨。
Data/PII Exposure：系统隔离、DPO/法律通知、受影响记录清单、监管时间表通知。

8）工具和符文（自动操作）

Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.

Gward Rails：防止"马鞍"-回扣有限,日志签名,每个动作↔ IC/Scribe。
可证明性：DSSE签名，snapshot哈希，Merkle刻录日志。

9）事件结束

标准：SLO恢复，队列还清，数据/金钱核对，风险关闭，通信发送。
闭幕仪式：最后状态更新，固定时间线，影响力列表，初步原因假设，指定了后太平间日期。

10）后太平间（无指控）

期限：P1在3个工作日内；P2-5个工作日。
内容：事实/时间线，根本原因（5 Whys/FRAM），影响（SLO，财务，客户），有效/不有效，动作项目（所有者，期限，可测量的效果）。
有效性检查：30-60天后-执行咆哮和度量（重复性,MTTR,噪音等）。

11）度量和SLO事件管理

MTTD/MTTA/MTTR，更改失败率，通勤时间v1，自动允许的百分比（符文）。
警报噪音：无关信号的一小部分，按呼叫分页。
Repeat Incidents：90天内重播的份额。
Mortem后SLA：按时完成/关闭的比例。
反应SLO：P1-首次通信≤ 15分钟；MTTR ≤ 60分钟；工件的完整性=100%。

12）法律/合规/隐私

法律通知：当地监管机构泄漏/事件的时间表。
PII最小化：仅通过批准的乔巴进入初选；令牌/掩码。
文物存储：WORM日志，司法管辖区的保留期；访问控制（RBAC/ABAC, JIT）。
交易对手：合同SLA，升级过程，诉讼收据。

13）安排值班和升级

24 × 7通话：按角色轮换（SRE、App、Data、Security、Payments）。
升级矩阵：谁代表区域/产品/提供商；重复联系人（聊天/语音/短信）。
演习（GameDays）：模拟是PSP的下降，复古雪崩，价格的争吵，钥匙的损害，区域的故障。

14） Dashbords事件

热（现在）：SLO状态，p95/p99，区域/tenant地图，任务队列，文物收集/不收集。
历史：事件类型趋势，符文效率，原因重复性。
质量控制：时间线的完整性，后面的"覆盖"，通信的SLA。

15）实施支票

批准SEV量表和SLO触发器。
任命角色（IC/Tech/Comms/Scribe/Sec/Legal）和轮换24 × 7。
运行单个事件卡模板和状态页面。
描述花花公子（PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII）。
使用审核和"红色按钮"实现符文。
包括强制政策：WORM/签名/文物收集。
《通信条例》（内部/外部）。，更新的SLA。
后处理过程和模板；KPI执行动作项目。
GameDays每月；事件趋势季度概述。
dashboard上的IR度量（MTTA/MTTR/Noise/Repeat/Comms SLA）。

16) FAQ

为什么"IC One"?

一个决策点消除溷乱，加快反应。

什么时候公开宣布？
一旦有确凿的事实和稳定计划。评估监管时间表。

更重要的是虚假或报告？
首先是恢复和安全。并行-收集文物。报告是在稳定之后。

一切都可以自动化吗?

不，但是符文关闭了"频繁而简单"的步骤。其余的是通过清晰的花花公子和训练。

简历：强大的事件响应不仅仅是PagerDuty和聊天频道。这些是角色纪律，快速的前15分钟，可管理的符文，透明的通信，具有可证明性的伪装和强制性的后太平间。通过这样的回路，您可以降低MTTR，保护金钱和数据，并提高客户和监管机构的信心。

对事故和事故的反应

关键原则

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目