自动修复错误

1）宗旨和原则

目标：通过保留SLO、收入和合规性，减少MTTR，防止事件升级。

原则：

SLO-first：只有在确认的错误预算威胁下才允许自动操作。
安全性优先：最小闪光灯,明确限制和taymbox。
可通过设计进行解释：每个操作都是可理解和可审计的。
滚回准备：任何步骤都附有返回标准。
在风险较高的地方进行人间循环：P1临界变化-通过双重控制或IC/on-Coll确认（除非其他策略设置）。

2）术语

自动复制：对事件的软件响应（警报/异常）而无需人工参与。
Guardrails：限制策略（阈值，持续时间，尝试次数，暴露区域）。
Runbook-Action：具有前/后检查和回滚的原子操作。
决策引擎：将事件映射到策略并触发操作的服务。

3）解决方桉架构

1.信号：SLO/burn-rate，KRI，合成，RUM，深度健康。
2.上下文相关性：发行版，fichflags，计划工作，从属提供商。
3.决策引擎：规则/策略（策略即代码），影响和风险评估，场景选择。
4.执行：runbook动作编曲器（等效性，带抖动的retrai）。
5.控制：先验者，后验证者，时间框，回滚。
6.审核和可观察性：活动预告片，成功指标，日志（WORM/immutable）。
7.通讯：状态页面（通过Comms Lead），var室，札幌宏。

4）政策和入学率（政策即代码）

条件示例（伪雷戈/逻辑）：

Failover PSP:
`allow if burn_rate(payments.auth) > fast && impact>threshold && psp_alt.healthy && within_limits("psp_reroute")`
Degrade Non-Critical Features:
`allow if p99(bet_settlement)>3x && queue_lag>limit && feature("replay_center").enabled`
Autoscale by Lag:
`allow if consumer_lag>target && cost_budget.ok && region_capacity.available`
Block PII Exports:
`allow if export_spike && no_ticket && data_class=PII -> action=block + notify(Compliance)`

每个策略都包含：条件，动作，限制（scope/时间/频率），成功标准，回滚。

5）安全操作目录（原子运行手册操作）

付款：将流量切换到备用PSP/银行；重新确定卫生×健康×交流的优先次序；包括简化的3 DS；用喷射器提高中继限制。
投注/游戏：扩大投注者；启用cache-warmup；暂时禁用非关键性仙女（动画，辅助仙女）；启用waiting-room/queue-page。
基础架构：撤回降解实例（outlier检测器），将流量疏散到邻近的AZ/地区；增加池/配额；用lint检查重新启动窃听器。
数据/队列：重新分配批次；将消费者提升到cap；将读取流量切换到健康的复制副本；启用自适应轨道采样。
安全/合规性：暂时阻止PII的出口，没有滴答声；加强推理的优势限制；在敏感操作上启用双重控制。
Comm层：Comms Lead的自动状态草案+升级插槽；在PSP降解时通知合作伙伴。

6）预审和后审定

在：

检查问题是否真实且新鲜（N到 M窗口；没有Cylens/计划工作）。
确保政策允许采取行动，并提供资源预算。
估算成本（FinOps）和合规约束。

帖子：

确认burn-rate/度量的下降；记录结果；根据条件安排返回（自动滚回）。

7) Rollback и “escape hatch”

在稳定度量并通过max-TTL动作时自动返回。
在var room中的IC/on call的回滚按钮。
破玻璃仅用于紧急访问；强制性后审计。

8）与Alerting和事件集成

任何自动动作都附在事件卡上：谁/什么/何时/为什么，结果，图形引用。
寻呼机被静音以进行重复，但不适用于失败的自动伪造（升级）。
状态页面通过模板通过Comms Lead更新。

9）安全与合规设计

管弦乐队的最低特权；每个动作/域的不同角色。
高风险的SoD和双重控制：PSP路由，奖金限制，PII出口。
所有自动解决方桉（包括输入信号和策略版本）的WORM/immutable审核。
PII卫生：标签和行为日志中没有个人标识符。

10）自动轮廓的可观察性

度量标准：成功率动作,反应时间,回扣百分比,节省MTTR,影响SLO。
Traces：用于"信号解决方桉操作效果" 端到端跟踪。
Logs：结构化,带有policy_id、版本和前/后检查。
Dashbords：Exec（对收入的影响/SLO），Ops（动作矩阵×域），FinOps（自动度量的成本）。

11）脚本示例（iGaming）

11.1 PSP降解（TR/EU）

信号：auth-success在PSP-1 10分钟内↓了25%,覆盖率超过30%的交易。
行动：将40%的流量重新分配给PSP-2/3；包括简化的3 DS；用jitter提起X银行查询的转发。
边界：每个备用PSP的总流量不超过60％；TTL 45分钟。
Rollback：在15分钟内≥目标正常化的成功率。

11.2在投注设置中增加p99

信号：p99 "bet→settle"> 3 ×规范+消费者lag>阈值。
行动：从上限到上限；加热系数缓存；暂时关闭"重播历史记录"。
Rollback： headroom> X和p99之后20分钟。

11.3个副本DB落后

信号：replic-lag> N秒,lock-wait增长。
行动：将阅读流量转移到健康的复制品；启用低优先级的throttling写操作。
Rollback：在正常化错误和锁定错误之后。

11.4 Spike PII出口产品

信号：导出率>基线× K,没有滴答声。
操作：导出块,Compliance通知,启用双重控制。
Rollback：确认请求并关闭异常后。

12) KPI и KRI

MTTR↓自动模拟器起作用的事件。
TTD→Action：从检测到执行操作的时间。
成功率动作和滚动率（低-好，如果不是由于误报）。
假动作速率（没有效果或具有负面影响的动作）。
SLO impact saved（分钟/收入,避免罚款）。
Pager fatigue↓（相同/最佳SLO的手动寻呼机更少）。

13）实施路线图（8至12周）

奈德。1-2：选择3-5个高ROI脚本（PSP feilover, autoscale by lag, feature-degrade）；描述政策/限制/回扣。
奈德。3-4：实现动作编排器、秘密和角色,与事件平台集成；增加可观察性和审计性。
奈德。5-6："影子"模式下的飞行员（仅模拟）→ A/B效果评估；然后包含在低覆盖率插件中。
奈德。7-8：扩展脚本目录（DB/缓存/队列/前沿）,链接到状态页和Comms。
奈德。9-10：添加FinOps限制（成本/SLI）规则，为高风险引入双重控制。
奈德。11-12：tabletop/chaos教学，KPI/KRI修订，haidlines出版和课堂教学。

14）工件和模板

自动补救政策：条件，行动，限制，TTL，回滚，所有者，风险等级。
Runbook-Action Spec：预测、步骤、验证、错误、监控、回滚逻辑。
改变控制：谁可以统治策略，公关评论，测试，diff和版本。
Evidence Pack：对SLO的记录/说明/影响指标,后验尸报告/审核。

15）反模式

"用症状治疗"，不检查原因，SLO →翻转。
无回滚动作和TTL →冻结降解。
没有guardrails的通用脚本→级联故障。
缺乏策略审核和验证。
忽略成本（没有限制的汽车轨道）和合规性（PII导出）。
在P1风险中完全自治，没有人类循环。

底线

自动错误修复是一个受控的轮廓：带有guardrails的→策略的SLO信号→带回滚的安全运行簿操作→可观察性和审计→事件培训。这种方法可测量地降低了MTTR，将收入保持在峰值中，并消除了电子呼叫的例行程序，同时仍符合安全和监管要求。

自动修复错误

底线

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目