業務和管理→變更管理
變更管理
1)任命和原則
目標:快速安全地交付更改,降低發生事件、停機時間和監管違規的風險。
原則:- Predictable&Reversible:每個更改都是可規劃、可驗證和可逆的。
- 基於風險:控制的深度取決於風險(司法管轄區,金錢,PII)。
- Small&Frequent:小增量更容易評估和回滾。
- 自動化第一:基礎架構為代碼,測試,驗證,自動反駁。
- 單一真相來源:單個RFC/滴答聲,單一日歷和操作日誌。
2)覆蓋範圍
產品代碼(後端/前端,移動SDK)。
基礎架構(IaC,Kubernetes/VM/CDN/Edge)。
數據(DB電路,遷移,店面/ETL)。
配置和幻燈片標誌。
集成(PSP,KYC,遊戲提供商)。
安全和訪問策略。
3)角色和RACI
更改所有者(Change Owner)-響應。
發布策展人/RelEng-協調發布列車。
SRE/Ops-操作,SLO/SLA門。
安全/法規遵從性-風險和法規遵從性檢查。
CAB(更改咨詢委員會)-批準正常/高風險更改。
Stakholders業務/支持-Informed。
4)更改分類
標準(標準,預先批準):頻繁,低風險,按現成的花花公子(例如,國旗更新,按鍵旋轉)。
正常:需要RFC、評估、可能的CAB、測試和回滾計劃。
緊急情況:P1事件的緊急假貨;最小的官僚方式,事後評論/SAV。
5)更改生命周期
1.啟動(RFC):目標、範圍、風險、受影響的服務/區域、備用計劃。
2.風險評估:Impact × Likelihood矩陣,對SLO/合規性/成本的影響。
3.計劃:窗口,依賴性,遷移,溝通,驗證測試。
4.驗證:自動測試,靜態分析,安全檢查,表演運行。
5.部署:漸進策略(參見第8節)、遙測和加德雷爾。
6.觀察:burn-rate SLO,alerta,業務指標(GGR/NGR,轉換)。
7.完成:接受結果,更新文檔,在出現偏差時發布後。
6)RFC: 最低陣容
背景:為什麼我們要改變,影響假設。
範圍:系統,區域,客戶版本。
風險:矩陣和故障場景,爆炸射線。
部署計劃:循序漸進,帶有「去/停止」標準。
回滾計劃(Backout):命令/步驟、啟動條件、RTO/RPO期望。
測試計劃:我們檢查之前/之後(功能,表演,安全)。
通訊:我們通知誰,消息模式。
審計:提示符,commites,CI/CD工件鏈接。
7)更改日歷和窗口
統一日歷:所有發布,遷移,關機,外部活動(體育/營銷/假期)。
凍結窗口:主要銷售/錦標賽/高峰時段,稅務報告。
交叉政策:禁止在同一關鍵路徑上發生沖突。
區域波:首先是「溫暖」區域/低流量,然後是主要區域。
8)技術部署戰略
金絲雀:流量比例小→指標比較(p95 latency, error%,轉換)。
藍綠色:平行環境,原子路由切換。
Progressive Delivery:帶有自動停止條件的百分比滾動。
Feature Flags:功能開關,kill-switch, A/B。
Dark Launch/Shadow Traffic:在不影響用戶的情況下檢查陰影。
階梯限制:QPS/競爭力逐步提高。
Gardrails:超出p95/error%閾值時自動停止,退款/充電器增加,授權/存款下降。
9)數據和模式變化
兼容性:擴展遷移(additive)→舊代碼和新模式。
兩階段遷移:(1)添加新字段/索引→ (2)切換代碼→ (3)刪除舊字段。
合同驗證: 具有註冊表的Avro/Protobuf計劃;back/forward compatible.
大量遷移:蹦床,停頓,平均水平,跳躍和進步。
災難性:RPO/RTO測試,狙擊,恢復排練。
BI數據:通過MR/SR和度量詞典(ID,公式)更改店面/度量。
10)管理配置和秘密
Config as Data:轉化的configs、電路驗證、通過周圍環境推廣。
秘密:關鍵輪換,最低特權原則,轉介審核。
區域覆蓋:限制/合作夥伴(PSP/KYC)-通過參數化,而不是通過代碼分支。
11)合規與審計(iGaming上下文)
更改的痕跡:已切換的人/時間/內容(標誌,configi,路線,遷移)。
Segregation of Duties:作者、評論者和解雇者的不同角色(類似SOX)。
監管報告:虛構版本,計算版本控制(GGR/NGR,獎金),PII訪問控制。
供應商:SDK/供應商證書的固定版本, SLA承諾。
12)通訊
警報模板:發布之前(時間/風險),期間(狀態、流量百分比、指標)和之後(結果)。
外部消息:在影響客戶時,標語/狀態頁面。
協調:#release-war-room,發行版所有者,更新頻率。
13)效率指標
DORA: Deployment Frequency, Lead Time for Changes, Change Failure Rate (CFR), MTTR.
SLO Impact:發行前/發行後在SLO中的時間份額。
Backout Rate:按更改類別回滾的頻率。
Release Debt:「懸掛」狀態下的未完成遷移/幻燈片。
業務影響:轉換,KYC TTV,成功率PSP,GGR/NGR滾動。
14)反模式
Big-bang版本:一次很多變化--很難理解回歸的原因。
不兼容的遷移:刪除/重命名字段而無需雙讀。
沒有所有者和刪除時間表的標誌:邏輯的「永恒」分支。
沒有遙測和停止標準的發布:「眼睛」和後來的損壞檢測。
忽略日歷:與峰值事件/活動的交叉點。
沒有花花公子和審計的手動步驟:高變異性和風險。
15)支票單
開始前(RFC準備就緒)
- 目標和KPI更改措辭
- 風險和blast radius評級,選擇更改類
- 部署計劃和Backout逐步說明
- 測試計劃和stadge/canar上的結果是
- 通訊和日歷更新,stakholders通知
在滾動期間
- p95/error%度量標準、業務提示和日誌實時監控
- 進展階段以支票記錄確認
- 當加德雷爾被觸發時-自動停止和回滾
之後
- 發布結果已記錄(changelog,版本,工件)
- 在發生偏差的情況下采取後續行動(≤ 5個工作日)
- 債務(拆除旗幟,最終遷移)與所有者一起列入backlog
16)迷你模板
RFC模板(簡短):- 目標/假設
- 範圍和影響(服務、區域、數據、客戶)
- 風險(Impact × Likelihood)和減少措施
- 推出計劃(步驟,流量百分比,go/no-go標準)
- 背面計劃(步驟,RTO/RPO,數據)
- 測試計劃(功能/表演/安全)
- 通訊(頻道、頻率)
- 文物(字幕,PR,廣告牌)
- 更改:"Payments-Service v2.14+遷移psp_limits"
- 窗口:2025-11-02:00-01:00 EET
- 受影響地區:歐盟,LATAM (10%→50%→100%)
- 風險/警戒線:error%> 2%10分鐘-停止和回滾
- 聯系人:@Owner,@SRE-on-call,@Support-lead
- 觸發:p95>+25%10 min, PSP success <97%
- 步驟:(1) traffic −→ 0%對v2。14;(2)將標誌切換到v2。13;(3)通過狙擊手/支票點回滾遷移;(4)煙霧測試;(5)報告。
17)與發布列車集成
發布火車:固定插槽(例如,每周2 ×),merge-cut的SLA。
Hotfix政策:單獨的火車/支線,加速行駛。
轉化:semver,工件和環境中的標簽,SBOM。
18)結果
變更控制不是速度制動,而是安全加速度的機制。以風險為導向的分類,良好的RFC,漸進式滾動,兼容的數據遷移,清晰的通信和可測量性將發行版轉變為可管理,可重復和可審核的過程。