改变职责和转移任务
1)为什么要正式改变职责
改变职责是风险的关键时刻:失去背景,反应时间增加,行动重复。正式化的过程会降低MTTA/MTTR,消除"被遗忘的尾巴",并提供合规性(谁以及何时承担责任)。
2)角色和覆盖模型
呼叫初级(P1)是IC到来之前的第一个响应,三重奏,协调。
呼叫中级(P2)-备用,在过载/上报时连接。
Duty Manager/IC-of-day是SEV-1+的事件领导者。
Follow-the-sun(多时区)或Follow-the-moon(其他地区的夜间报道)。
时间窗口:避免发布/风险工作± 30分钟轮班。
3)轮换时间表(示例)
24/7,8小时轮班:上午/日/晚,3个旅,P1+P2。
24/7,12小时轮班:更少的切换,更高的疲劳风险-需要"补偿窗口"。
5 × 8(工作日)+周末游泳池:产品团队的白天初级覆盖,周末平台/SRE。
溷合体:工作日"在办公室时间",晚上/周末-追随太阳。
公平规则:按日历轮换,假期/假期记录,期间最多N夜班。
4)轮班卡(Shift Handover卡)
最低内容标准:- 当和谁:"日期/时间(UTC和地方)",报告→接受;联系P1/P2。
- 系统状态:SLO/SLA摘要,已知的已知降解的活性异常。
- 公开事件:ID,SEV,当前步骤,谁是所有者,下一步行动/ETA。
- 变更窗口中的风险:计划工作、发布、迁移、限制状态(提供商配额)。
- 关键字幕/任务:优先级,锁定,截止日期。
- 通讯:状态页面/客户升级中的活动帖子。
- 已知的解决方法:包含降级幻灯片,时间限制。
- Domenica: 支付提供商/KYC/CDN-其状态和路由。
- Housekeeping:明天有人打电话,人们无法进入的窗口(集会/航班)。
5)支票清单"转会"(送出方)
- 更新了轮班卡(所有字段),并固定了"#oncall-handover"频道中的链接。
- 将"口头知识"翻译成字幕/注释;没有"在脑海里"的任务。
- 所有事件都有:SEV,所有者,下一步,下次升级的时间。
- 状态页面和客户端升级对应于实际状态。
- 禁用嘈杂的/假的Alerta(通过程序)或在卡中标记。
- 已检查下班窗口的外部提供商的配额/限额。
- 通过语音/视频链接同步5-10分钟(如果SEV-1+处于活动状态)。
- 记录了传输事实(bot/tiket),接收器指出。
6)「接受变更」支票清单(主办方)
- 阅读卡片,澄清悬而未决的问题。
- 在过去2-4小时内检查了SLO/Alerta行列板。
- 确认P1/P2在机器人(标记)和寻呼机声音/频道中的作用。
- 接管了活动事件的所有权,并更新了升级计时器。
- 对计划工作/发布进行了核对,取消了前30分钟的危险操作。
- 向频道发出了"回声信息":"改变了,积极的事件:,……,sl。"……
7)通讯标准
Каналы: `#oncall`, `#incident-warroom-
后期间隔:SEV-0:15分钟,SEV-1:30分钟,SEV-2+:60分钟。
Update格式:Impact-诊断-行动-Next Apdate(时间)。
升级:在N分钟内没有进展→通过矩阵连接TL/Platform/DB/Sec。
拥有清晰度:每个动作都有表演者和ETA。
8)任务转移(非事件)
传输条件:任务阻止SLO/释放/合规或到期。
外观:带有"下一步定义"和预期结果的字幕,所有工件(徽标/快照/图形)均随附。
优先级:Kanban-swimlane "On-call Handover"。
时机:传输有尽职调查;逾期会升级到服务的所有者。
9)自动化和集成
轮换日历:与寻呼机同步;机器人在轮班开始时发布"谁值班"。
ChatOps:'/handover start',来自来源的自动卡板(SLO状态,公开事件,版本)。
Ticketing:按P1/P2自动指定所有者;"handover"标签。
状态页面:带有模板的公共升级桥。
审计:传输日志(谁/何时接受),与SEV的联系和报告。
10)疲劳管理和弹性(Fatigue Management)
限制:最大X Page/小时和连续晚上 Y-过渡到P2/升级。
Quiet hours用于非临界alertes(tikets代替page)。
小时后补偿和事后休息。
为新的呼叫工程师进行培训和影子化。
嘈杂的轮班回顾展→调音过山车和花花公子。
11)轮班和齿轮质量指标
Handover Defect Rate:在更改时发生的上下文丢失事件的比例。
MTTA围绕班次:中位数/峰值从切换± 30分钟。
Missed/late updates:SEV逾期更新。
警告Hygiene:假分页的百分比;没有运行簿/所有者的Alertes。
按次加载:page/Hour,活动平均持续时间。
Satisfaction: NPS轮班(电话投票),规模疲劳。
12)与事件管理和RCA的联系
活动事件在轮班时不会关闭;责任明确转移和记录。
在RCA中,"变更的影响"部分是强制性的:是否存在上下文漂移,升级迟到以及动作加倍。
CAPA:卡片改进,支票单,自动化,培训。
13)安全、合规和隐私
自由文本卡中禁止PII/秘密;安全存储链接。
访问是暂时的:呼叫权限授予轮班窗口(JIT/JEA),按键轮换。
审核跟踪:正在阅读/更改卡片和状态页面的immutable-log。
监管:客户通知的时间在换乘卡中监控。
14)反模式
没有卡/滴答声的"口头传播"。
正好在没有IC和备用的情况下发布。
一个没有P2的人"在飞机/地铁上"有寻呼机。
卡片为"床单",没有下一个步骤/ETA。
个人聊天三重奏-信息丢失,审计是不可能的。
没有记录传输的事实-"谁回答"的争议。
15)模板
轮班卡模板(压缩)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
接收时的echo消息模板
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16)嵌入日常实践
戴利换班仪式:在活动事件中以5-10分钟的声音同步。
每周卡片审计:我们抽查完整性/相关性。
Game-days:模拟多个并发事件。
基座目录:存储库中的卡/支票单模板,以代码形式咆哮。
17)结果
组织良好的班次和齿轮是整个操作机器的"润滑剂"。换班卡,短时间,严格的支票单,自动化和对团队可持续性的关注将风险时刻变成例行程序,而不会失去质量:上下文仍然存在,反应时间稳定,用户根本没有注意到值班人员的变化。