Cambio de turno y transferencia de tareas
1) Por qué formalizar el cambio de turno
El cambio de turno es un momento crítico del riesgo: se pierde el contexto, crece el tiempo de reacción, se duplican las acciones. El proceso formalizado reduce el MTTA/MTTR, elimina las «colas olvidadas» y proporciona cumplimiento (quién y cuándo aceptó la responsabilidad).
2) Roles y modelo de cobertura
Primary on-call (P1) es la primera respuesta, triaje, coordinación antes de la llegada del IC.
Secondary on-call (P2) - back-up, se conecta cuando hay sobrecarga/escalada.
Duty Manager/IC-of-the-day es el líder del incidente para SEV-1 +.
Follow-the-sun (multitarea) o Follow-the-moon (cobertura nocturna en otras regiones).
Ventanas temporales: evitar lanzamientos/obras de riesgo ± 30 min del turno.
3) Gráficos de rotación (ejemplos)
24/7, turnos de 8 horas: mañana/día/noche, 3 brigadas, P1 + P2.
24/7, turnos de 12 horas: menos cambios, mayor riesgo de fatiga - se necesitan «ventanas de compensación».
5 × 8 (días laborables) + Weekend Pool: cobertura primaria diurna por parte del equipo del producto, fin de semana - plataforma/SRE.
Híbrido: días laborables «en horario de oficina», noches/fines de semana - Follow-the-sun.
Reglas de equidad: rotación por calendario, contabilidad de vacaciones/vacaciones, máximo N turnos nocturnos por período.
4) Tarjeta de cambio (Shift Handover Card)
Estándar mínimo de contenido:- Cuándo y quién: 'Fecha/hora (UTC y local)', transmite → acepta; contactos P1/P2.
- Estado de los sistemas: resumen SLO/SLA, alertas activas conocidas por degradación.
- Incidentes abiertos: ID, SEV, paso actual, quién es el propietario, siguiente acción/ETA.
- Riesgos en la ventana de cambios: trabajos programados, versiones, migraciones, estados límite (cuotas de proveedores).
- Tickets/tareas críticas: prioridad, bloqueos, plazos.
- Comunicaciones en todo el mundo: publicaciones activas en la página de estado/actualizaciones del cliente.
- Vías de circunvalación conocidas: banderas de degradación fich incluidas, límites de tiempo.
- Domenica: proveedores de pagos/KYC/CDN - sus estados y enrutamiento.
- Housekeeping: quién está en la llamada mañana, ventanas de inaccesibilidad de la gente (rallyes/vuelos).
5) Lista de verificación «Paso el turno» (lado de entrega)
- Actualizó la tarjeta de cambio (todos los campos) y consolidó el enlace en el canal '# oncall-handover'.
- Tradujo el «conocimiento oral» en tickets/notas; no hay tareas «en la cabeza».
- Todos los incidentes tienen: SEV, propietario, siguiente paso, hora del próximo apdate.
- La página de estado y las actualizaciones del cliente coinciden con el estado real.
- Desactivó las alertas ruidosas/falsas (por procedimiento) o marcadas en la tarjeta.
- Verificó las cuotas/límites de proveedores externos en la ventana del siguiente turno.
- Sincronizado por voz/videoconferencia durante 5-10 minutos (si SEV-1 + está activo).
- Registró el hecho de la transmisión (bot/ticket), indicó el receptor.
6) Check-list «Acepto el cambio» (anfitrión)
- Leyó la tarjeta, aclaró las preguntas abiertas.
- Revisó los dashboards de SLO/alertas en las últimas 2-4 horas.
- Confirmó el papel de la P1/P2 en el bot (assign) y el sonido/canales del buscapersonas.
- Tomó posesión de los incidentes activos y actualizó los temporizadores de los apdates.
- Concilió los trabajos programados/lanzamientos, canceló operaciones arriesgadas durante las primeras 30 minutos.
- Hizo un "eco-mensaje" al canal: "El cambio fue aceptado, incidentes activos:..., cl. apdate en "...
7) Normas de comunicación
Каналы: `#oncall`, `#incident-warroom-<ID>`, `#statuspage`.
Intervalos de apdate: SEV-0: 15 min, SEV-1: 30 min, SEV-2 +: 60 min.
Formato del apdate: Impacto - Diagnóstico - Acciones - Siguiente apdate (tiempo).
Escalada: no hay progreso en N minutos → conectar TL/Platform/DB/Sec por matriz.
Claridad de posesión: cada acción tiene un ejecutor y ETA.
8) Transferencia de tareas (no incidentales)
Criterios de transferencia: la tarea bloquea el SLO/lanzamiento/cumplimiento o expira.
Decoración: ticket con «definición de siguiente paso» y resultado esperado, todos los artefactos (logs/instantáneas/gráficos) se adjuntan.
Priorización: Kanban- swimlane «On-call Handover».
Plazos: las transmisiones tienen due-date; los retrasos se escalan al propietario del servicio.
9) Automatización e integración
Calendario de rotación: sincronización con el buscapersonas; el bot publica «quién está de guardia» al principio del turno.
ChatOps: '/handover start ', autoservicio de la tarjeta de origen (estados SLO, incidentes abiertos, lanzamientos).
Ticketing: asignación automática del propietario por P1/P2; etiquetas «handover».
Status page: bridge a los apdates públicos con plantillas.
Auditoría: registro de transmisión (quién/cuándo aceptó), comunicación con SEV e informes.
10) Gestión del cansancio y la sostenibilidad (Administración Fatigue)
Límites: máximo de X page/hora e Y consecutivo por la noche - ir a P2/escalada.
Quiet hours para alertas no críticas (tickets en lugar de paginación).
After-hours compensación y post-incident nat.
Entrenamiento y shadowing para nuevos ingenieros on-call.
Retrospectivas de turnos ruidosos → afinación de alertas y playbucks.
11) Métricas de calidad de turnos y engranajes
Nota por defecto de Handover: proporción de incidentes con pérdida de contexto durante el cambio.
MTTA alrededor del cambio: mediana/picos a ± 30 min del cambio.
Actualizaciones pendientes: updates caducados por SEV.
Alert Hygiene:% de páginas falsas; alertas sin runbook/propietario.
Cargar por mayúsculas: paginas/hora, duración media del trabajo activo.
Satisfacción: Turno NPS (encuesta on-call), fatiga en la escala.
12) Relación con la gestión de incidentes y RCA
Los incidentes activos no se cierran en el momento del turno; la responsabilidad se transfiere y fija explícitamente.
En RCA es obligatoria la sección «Impacto del cambio»: si hubo una deriva del contexto, un retraso en el apdate, una toma de acciones.
CAPA: mejora de tarjetas, listas de verificación, automatización, capacitación.
13) Seguridad, cumplimiento y privacidad
PII/Secretos prohibidos en el texto libre de las tarjetas; vínculos a repositorios seguros.
Los accesos son temporales: se emiten derechos on-call en la ventana de turno (JIT/JEA), rotación de claves.
Auditoría-rastro: immutable-registro quién leyó/cambió la tarjeta y la página de estado.
Regulación: los plazos de las notificaciones al cliente se controlan en la tarjeta de turno.
14) Anti-patrones
«Pasaré verbalmente» sin tarjeta/tickets.
Lanzamiento exactamente en el momento del cambio sin IC y respaldo.
Pager en un hombre «en un avión/metro» sin P2.
Una tarjeta como «sábana» sin siguiente paso/ETA.
Triage en los chats personales - la información se pierde, la auditoría no es posible.
No hay fijación sobre el hecho de la transmisión - la controversia de «quién respondió».
15) Plantillas
Plantilla de tarjeta de cambio (comprimida)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
Plantilla de mensaje de eco al recibir
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) Incrustación en la práctica diaria
Daily-ritual de cambio: 5-10 minutos de sincronización de voz en incidentes activos.
Auditoría semanal de tarjetas: verificamos selectivamente la integridad/relevancia.
Días de juego: simulación de turnos con muchos eventos paralelos.
Directorio Dock: plantillas de tarjetas/listas de cheques en el repositorio, rugiendo como código.
17) Resultado
Los turnos y transmisiones bien organizados son la «lubricación» de toda la máquina operadora. La tarjeta de turno, las sincronizaciones cortas, las rigurosas listas de cheques, la automatización y la preocupación por la estabilidad del equipo convierten los momentos arriesgados en una rutina sin perder calidad: el contexto se mantiene, el tiempo de reacción es estable y los usuarios no notan el cambio de los asistentes en absoluto.