改變職責和轉移任務
1)為什麼要正式改變職責
改變職責是風險的關鍵時刻:失去背景,反應時間增加,行動重復。正式化的過程會降低MTTA/MTTR,消除「被遺忘的尾巴」,並提供合規性(誰以及何時承擔責任)。
2)角色和覆蓋模型
呼叫初級(P1)是IC到來之前的第一個響應,三重奏,協調。
呼叫中級(P2)-備用,在過載/上報時連接。
Duty Manager/IC-of-day是SEV-1+的事件領導者。
Follow-the-sun(多時區)或Follow-the-moon(其他地區的夜間報道)。
時間窗口:避免發布/風險工作± 30分鐘輪班。
3)輪換時間表(示例)
24/7,8小時輪班:上午/日/晚,3個旅,P1+P2。
24/7,12小時輪班:更少的切換,更高的疲勞風險-需要「補償窗口」。
5 × 8(工作日)+周末遊泳池:產品團隊的白天初級覆蓋,周末平臺/SRE。
混合體:工作日「在辦公室時間」,晚上/周末-追隨太陽。
公平規則:按日歷輪換,假期/假期記錄,期間最多N夜班。
4)輪班卡(Shift Handover卡)
最低內容標準:- 當和誰:「日期/時間(UTC和地方)」,報告→接受;聯系P1/P2。
- 系統狀態:SLO/SLA摘要,已知的已知降解的活性異常。
- 公開事件:ID,SEV,當前步驟,誰是所有者,下一步行動/ETA。
- 變更窗口中的風險:計劃工作、發布、遷移、限制狀態(提供商配額)。
- 關鍵字幕/任務:優先級,鎖定,截止日期。
- 通訊:狀態頁面/客戶升級中的活動帖子。
- 已知的解決方法:包含降級幻燈片,時間限制。
- Domenica: 支付提供商/KYC/CDN-其狀態和路由。
- Housekeeping:明天有人打電話,人們無法進入的窗口(集會/航班)。
5)支票清單「轉會」(送出方)
- 更新了輪班卡(所有字段),並固定了「#oncall-handover」頻道中的鏈接。
- 將「口頭知識」翻譯成字幕/註釋;沒有「在腦海裏」的任務。
- 所有事件都有:SEV,所有者,下一步,下次升級的時間。
- 狀態頁面和客戶端升級對應於實際狀態。
- 禁用嘈雜的/假的Alerta(通過程序)或在卡中標記。
- 已檢查下班窗口的外部提供商的配額/限額。
- 通過語音/視頻鏈接同步5-10分鐘(如果SEV-1+處於活動狀態)。
- 記錄了傳輸事實(bot/tiket),接收器指出。
6)「接受變更」支票清單(主辦方)
- 閱讀卡片,澄清懸而未決的問題。
- 在過去2-4小時內檢查了SLO/Alerta行列板。
- 確認P1/P2在機器人(標記)和尋呼機聲音/頻道中的作用。
- 接管了活動事件的所有權,並更新了升級計時器。
- 對計劃工作/發布進行了核對,取消了前30分鐘的危險操作。
- 向頻道發出了"回聲信息":"改變了,積極的事件:,……,sl。"……
7)通訊標準
Каналы: `#oncall`, `#incident-warroom-
後期間隔:SEV-0:15分鐘,SEV-1:30分鐘,SEV-2+:60分鐘。
Update格式:Impact-診斷-行動-Next Apdate(時間)。
升級:在N分鐘內沒有進展→通過矩陣連接TL/Platform/DB/Sec。
擁有清晰度:每個動作都有表演者和ETA。
8)任務轉移(非事件)
傳輸條件:任務阻止SLO/釋放/合規或到期。
外觀:帶有「下一步定義」和預期結果的字幕,所有工件(徽標/快照/圖形)均隨附。
優先級:Kanban-swimlane 「On-call Handover」。
時機:傳輸有盡職調查;逾期會升級到服務的所有者。
9)自動化和集成
輪換日歷:與尋呼機同步;機器人在輪班開始時發布「誰值班」。
ChatOps:'/handover start',來自來源的自動卡板(SLO狀態,公開事件,版本)。
Ticketing:按P1/P2自動指定所有者;「handover」標簽。
狀態頁面:帶有模板的公共升級橋。
審計:傳輸日誌(誰/何時接受),與SEV的聯系和報告。
10)疲勞管理和彈性(Fatigue Management)
限制:最大X Page/小時和連續晚上 Y-過渡到P2/升級。
Quiet hours用於非臨界alertes(tikets代替page)。
小時後補償和事後休息。
為新的呼叫工程師進行培訓和影子化。
嘈雜的輪班回顧展→調音過山車和花花公子。
11)輪班和齒輪質量指標
Handover Defect Rate:在更改時發生的上下文丟失事件的比例。
MTTA圍繞班次:中位數/峰值從切換± 30分鐘。
Missed/late updates:SEV逾期更新。
警告Hygiene:假分頁的百分比;沒有運行簿/所有者的Alertes。
按次加載:page/Hour,活動平均持續時間。
Satisfaction: NPS輪班(電話投票),規模疲勞。
12)與事件管理和RCA的聯系
活動事件在輪班時不會關閉;責任明確轉移和記錄。
在RCA中,「變更的影響」部分是強制性的:是否存在上下文漂移,升級遲到以及動作加倍。
CAPA:卡片改進,支票單,自動化,培訓。
13)安全、合規和隱私
自由文本卡中禁止PII/秘密;安全存儲鏈接。
訪問是暫時的:呼叫權限授予輪班窗口(JIT/JEA),按鍵輪換。
審核跟蹤:正在閱讀/更改卡片和狀態頁面的immutable-log。
監管:客戶通知的時間在換乘卡中監控。
14)反模式
沒有卡/滴答聲的「口頭傳播」。
正好在沒有IC和備用的情況下發布。
一個沒有P2的人「在飛機/地鐵上」有尋呼機。
卡片為「床單」,沒有下一個步驟/ETA。
個人聊天三重奏-信息丟失,審計是不可能的。
沒有記錄傳輸的事實-「誰回答」的爭議。
15)模板
輪班卡模板(壓縮)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
接收時的echo消息模板
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16)嵌入日常實踐
戴利換班儀式:在活動事件中以5-10分鐘的聲音同步。
每周卡片審計:我們抽查完整性/相關性。
Game-days:模擬多個並發事件。
基座目錄:存儲庫中的卡/支票單模板,以代碼形式咆哮。
17)結果
組織良好的班次和齒輪是整個操作機器的「潤滑劑」。換班卡,短時間,嚴格的支票單,自動化和對團隊可持續性的關註將風險時刻變成例行程序,而不會失去質量:上下文仍然存在,反應時間穩定,用戶根本沒有註意到值班人員的變化。