业务和管理→变更管理
变更管理
1)任命和原则
目标:快速安全地交付更改,降低发生事件、停机时间和监管违规的风险。
原则:- Predictable&Reversible:每个更改都是可规划、可验证和可逆的。
- 基于风险:控制的深度取决于风险(司法管辖区,金钱,PII)。
- Small&Frequent:小增量更容易评估和回滚。
- 自动化第一:基础架构为代码,测试,验证,自动反驳。
- 单一真相来源:单个RFC/滴答声,单一日历和操作日志。
2)覆盖范围
产品代码(后端/前端,移动SDK)。
基础架构(IaC,Kubernetes/VM/CDN/Edge)。
数据(DB电路,迁移,店面/ETL)。
配置和幻灯片标志。
集成(PSP,KYC,游戏提供商)。
安全和访问策略。
3)角色和RACI
更改所有者(Change Owner)-响应。
发布策展人/RelEng-协调发布列车。
SRE/Ops-操作,SLO/SLA门。
安全/法规遵从性-风险和法规遵从性检查。
CAB(更改咨询委员会)-批准正常/高风险更改。
Stakholders业务/支持-Informed。
4)更改分类
标准(标准,预先批准):频繁,低风险,按现成的花花公子(例如,国旗更新,按键旋转)。
正常:需要RFC、评估、可能的CAB、测试和回滚计划。
紧急情况:P1事件的紧急假货;最小的官僚方式,事后评论/SAV。
5)更改生命周期
1.启动(RFC):目标、范围、风险、受影响的服务/区域、备用计划。
2.风险评估:Impact × Likelihood矩阵,对SLO/合规性/成本的影响。
3.计划:窗口,依赖性,迁移,沟通,验证测试。
4.验证:自动测试,静态分析,安全检查,表演运行。
5.部署:渐进策略(参见第8节)、遥测和加德雷尔。
6.观察:burn-rate SLO,alerta,业务指标(GGR/NGR,转换)。
7.完成:接受结果,更新文档,在出现偏差时发布后。
6)RFC: 最低阵容
背景:为什么我们要改变,影响假设。
范围:系统,区域,客户版本。
风险:矩阵和故障场景,爆炸射线。
部署计划:循序渐进,带有"去/停止"标准。
回滚计划(Backout):命令/步骤、启动条件、RTO/RPO期望。
测试计划:我们检查之前/之后(功能,表演,安全)。
通讯:我们通知谁,消息模式。
审计:提示符,commites,CI/CD工件链接。
7)更改日历和窗口
统一日历:所有发布,迁移,关机,外部活动(体育/营销/假期)。
冻结窗口:主要销售/锦标赛/高峰时段,税务报告。
交叉政策:禁止在同一关键路径上发生冲突。
区域波:首先是"温暖"区域/低流量,然后是主要区域。
8)技术部署战略
金丝雀:流量比例小→指标比较(p95 latency, error%,转换)。
蓝绿色:平行环境,原子路由切换。
Progressive Delivery:带有自动停止条件的百分比滚动。
Feature Flags:功能开关,kill-switch, A/B。
Dark Launch/Shadow Traffic:在不影响用户的情况下检查阴影。
阶梯限制:QPS/竞争力逐步提高。
Gardrails:超出p95/error%阈值时自动停止,退款/充电器增加,授权/存款下降。
9)数据和模式变化
兼容性:扩展迁移(additive)→旧代码和新模式。
两阶段迁移:(1)添加新字段/索引→ (2)切换代码→ (3)删除旧字段。
合同验证: 具有注册表的Avro/Protobuf计划;back/forward compatible.
大量迁移:蹦床,停顿,平均水平,跳跃和进步。
灾难性:RPO/RTO测试,狙击,恢复排练。
BI数据:通过MR/SR和度量词典(ID,公式)更改店面/度量。
10)管理配置和秘密
Config as Data:转化的configs、电路验证、通过周围环境推广。
秘密:关键轮换,最低特权原则,转介审核。
区域覆盖:限制/合作伙伴(PSP/KYC)-通过参数化,而不是通过代码分支。
11)合规与审计(iGaming上下文)
更改的痕迹:已切换的人/时间/内容(标志,configi,路线,迁移)。
Segregation of Duties:作者、评论者和解雇者的不同角色(类似SOX)。
监管报告:虚构版本,计算版本控制(GGR/NGR,奖金),PII访问控制。
供应商:SDK/供应商证书的固定版本, SLA承诺。
12)通讯
警报模板:发布之前(时间/风险),期间(状态、流量百分比、指标)和之后(结果)。
外部消息:在影响客户时,标语/状态页面。
协调:#release-war-room,发行版所有者,更新频率。
13)效率指标
DORA: Deployment Frequency, Lead Time for Changes, Change Failure Rate (CFR), MTTR.
SLO Impact:发行前/发行后在SLO中的时间份额。
Backout Rate:按更改类别回滚的频率。
Release Debt:"悬挂"状态下的未完成迁移/幻灯片。
业务影响:转换,KYC TTV,成功率PSP,GGR/NGR滚动。
14)反模式
Big-bang版本:一次很多变化--很难理解回归的原因。
不兼容的迁移:删除/重命名字段而无需双读。
没有所有者和删除时间表的标志:逻辑的"永恒"分支。
没有遥测和停止标准的发布:"眼睛"和后来的损坏检测。
忽略日历:与峰值事件/活动的交叉点。
没有花花公子和审计的手动步骤:高变异性和风险。
15)支票单
开始前(RFC准备就绪)
- 目标和KPI更改措辞
- 风险和blast radius评级,选择更改类
- 部署计划和Backout逐步说明
- 测试计划和stadge/canar上的结果是
- 通讯和日历更新,stakholders通知
在滚动期间
- p95/error%度量标准、业务提示和日志实时监控
- 进展阶段以支票记录确认
- 当加德雷尔被触发时-自动停止和回滚
之后
- 发布结果已记录(changelog,版本,工件)
- 在发生偏差的情况下采取后续行动(≤ 5个工作日)
- 债务(拆除旗帜,最终迁移)与所有者一起列入backlog
16)迷你模板
RFC模板(简短):- 目标/假设
- 范围和影响(服务、区域、数据、客户)
- 风险(Impact × Likelihood)和减少措施
- 推出计划(步骤,流量百分比,go/no-go标准)
- 背面计划(步骤,RTO/RPO,数据)
- 测试计划(功能/表演/安全)
- 通讯(频道、频率)
- 文物(字幕,PR,广告牌)
- 更改:"Payments-Service v2.14+迁移psp_limits"
- 窗口:2025-11-02:00-01:00 EET
- 受影响地区:欧盟,LATAM (10%→50%→100%)
- 风险/警戒线:error%> 2%10分钟-停止和回滚
- 联系人:@Owner,@SRE-on-call,@Support-lead
- 触发:p95>+25%10 min, PSP success <97%
- 步骤:(1) traffic −→ 0%对v2。14;(2)将标志切换到v2。13;(3)通过狙击手/支票点回滚迁移;(4)烟雾测试;(5)报告。
17)与发布列车集成
发布火车:固定插槽(例如,每周2 ×),merge-cut的SLA。
Hotfix政策:单独的火车/支线,加速行驶。
转化:semver,工件和环境中的标签,SBOM。
18)结果
变更控制不是速度制动,而是安全加速度的机制。以风险为导向的分类,良好的RFC,渐进式滚动,兼容的数据迁移,清晰的通信和可测量性将发行版转变为可管理,可重复和可审核的过程。