Rotación de comandos y turnos
1) Objetivos de rotación
La rotación es una forma sistémica de proporcionar cobertura continua, carga predecible y respuesta rápida sin burnout y pérdida de contexto. Objetivos clave:- distribución uniforme de paginas y horas nocturnas;
- sustitución garantizada por fuerza mayor;
- Transparencia de horarios, vacaciones y restricciones;
- cumplir con los requisitos de SLA/cumplimiento y mantener la auditoría.
2) Roles y cobertura
P1 (Primary on-call): primera respuesta, triaje, sincronización con IC.
P2 (Secondary on-call): retroceso para sobrecarga/escalada.
IC-of-the-day/Duty Manager: líder en SEV-1 +, coordinación de soluciones.
Observer/Shadow: aprendizaje en modo «sombra» sin paginas.
- evitar lanzamientos ± 30 minutos del cambio;
- para ventanas complejas, mantenga dos ranuras activas (P1 + P2);
- IC tiene un turno dedicado, no combina P1.
3) Modelos de rotación
24/7 con turnos de 8 horas: mañana/día/noche (3 brigadas). Un mínimo de fatiga, más cambios.
24/7 con turnos de 12 horas: menos cambios, se necesita compensación y límites estrictos.
Follow-the-sun: las regiones transmiten cobertura por zonas horarias; menos paginas nocturnas.
Follow-the-moon: la cobertura nocturna se transfiere a una región «lejana» para cargar fuera del prime time local.
Semana-en/semana-fuera: una semana en-llamada, luego una semana sin paginas (para equipos maduros y poco ruido).
4) Reglas de Equidad y Sostenibilidad
Cuotas de noche/fin de semana: no más de N noches y M turnos de fin de semana por persona por periodo.
Balance de pages: si el ingeniero tiene> umbral objetivo para el período - redistribución/remediación.
Prohibición de los solteros: ventanas nocturnas sólo P1 + P2.
Ventanas de inaccesibilidad: programadas con antelación (vacaciones/enfermedad/formación), el horario se vuelve a calcular automáticamente.
Shadow-períodos: cada nuevo on-call pasa ≥ 2 turnos en la sombra.
5) Planificación y publicación de gráficos
Horizonte de planificación: 6-8 semanas, revisión - cada 2 semanas.
Calendario general de rotaciones (disponible públicamente sólo), en cada ranura - P1/P2/IC/Shadow, contactos.
Las sustituciones (swap) son formalizadas por el ticket/solicitud y confirmadas por el bridge-bot.
Publicación: en T-14 días mínimo, cambios - con la notificación del equipo.
6) Procedimientos de transferencia (handover)
Tarjeta de cambio (campos obligatorios): incidentes activos (ID/SEV/propietario), siguiente paso/ETA, riesgos de ventana (releases/migraciones/cuotas), estado de SLO, banderas de degradación de fichas incluidas, status page/comms.
Lista de cheques «pase»: tarjeta actualizada, todos los conocimientos orales → tickets, temporizadores de apdate expuestos, P2 de contacto confirmado.
La lista de cheques «acepto»: leyó la tarjeta, revisó los dashboards en 2-4 horas, tomó posesión de los incidentes, hizo un mensaje de eco al canal.
7) Gestión de la fatiga (fatigue)
Límites de page/hora y/o cambio, escalada automática en P2 cuando se excede.
Quiet Hours para señales P2/P3 (sólo las críticas de página sufren).
Después de las noches más duras (SEV-1 +).
Revisión semanal de alerta → reducción de ruido, modificación de reglas.
Monitoreo de carga: gráfico «pages/persona» y estado de ánimo del equipo (cambio NPS).
8) Seguridad y cumplimiento
Acceso JIT/JEA: los derechos on-call sólo se emiten en la ventana de turno.
Auditoría-rastro: quién estuvo de servicio, quién aceptó, qué acciones se llevaron a cabo; Almacenamiento inmutable.
Servicios con operaciones sensibles (PII/pagos): clase separada de turnos y tolerancias; prohibición de dispositivos personales, SSO + mTLS.
Los puntos de contacto con Legal/PR/Privacy están marcados en la tarjeta de cambio.
9) Automatización
Calendario ↔ buscapersonas ↔ ChatOps: el bot publica "who on-call', permite '/swap ', crea una tarjeta handover de fuentes (dashboards, tickets, lanzamientos).
Comprobación de disponibilidad al principio del turno: sonido del buscapersonas, VPN/SSO, accesos, comunicación.
Plantillas de documentos: SOP/Runbook para rutinas e incidentes; Enlaces automáticos en alertas.
Integración con lanzamientos: anotaciones de lanzamiento → supresión temporal de alertas no clave durante los primeros 30 minutos.
10) Métricas de calidad de rotación
MTTA/MTTR alrededor del cambio (± 30 minutos desde el cambio).
Handover Defect Rate es la proporción de incidentes con pérdida de contexto por turno.
Alerts per on-call hour (mediana/95 percentil),% actionable.
Cargar por persona - paginas/persona/semana; varianza entre los participantes.
Actualizaciones pendientes/Late - Retrasos en el SLA de Comms.
Swap rate y causas (fatiga/vacaciones/conflictos).
Turnos NPS (por encuesta corta) y tendencia.
11) Plantillas de programación
A. 24/7, 8 horas (3 brigadas)
Brigade A: 08: 00-16: 00
Brigade B: 16: 00-00: 00
Brigade C: 00: 00-08: 00
Each team: P1 + P2, IC on a separate schedule (day slot)
Rotation: A→B→C every week; weekend moves in a circle
B. Follow-the-sun (3 regiones)
EU: 07:00–15:00 AMER: 15:00–23:00 APAC: 23:00–07:00 (UTC)
Each region: P1 local, P2 neighboring
IC: coincides with active region; transfer 15 minutes before shift
B. Week-on/Week-off (ruido bajo)
Week 1: Team X (P1/P2) Week 2: Team Y
Daily IC common to both
Limit: no more than 2 consecutive weeks for one person
12) Hojas de cheques
Antes de publicar el gráfico
- Cobertura 24/7 sin «agujeros», P1 + P2 en cada ranura.
- Se han tenido en cuenta las vacaciones/formación/restricciones de accesibilidad.
- El balance de noches/fines de semana es justo.
- IC y Shadow asignados.
- La sincronización automática con el buscapersonas/calendario está activada.
El
- P1/P2/IC confirmaron la presencia (bot/chat).
- Accesos verificados, comunicaciones, dashboards.
- Tarjeta handover aceptada, mensaje de eco enviado.
Cambio completado
- La tarjeta handover está actualizada y cerrada.
- Incidentes transmitidos desde el siguiente paso/ETA.
- Se realizó un AAR corto, se registraron mejoras (si hubo fallas).
13) Anti-patrones
Solitaria P1 por la noche sin respaldo.
Publicar el calendario una semana antes sin horizonte ni reemplazo.
Lanzamientos en el momento del cambio sin IC y gates.
Transmisiones «orales» sin tarjeta y tickets.
Cero compensación/tiempo libre libre después de noches pesadas.
Falta de auditoría de swap's y razones para las sustituciones.
Rotación sin entrenamiento: nuevo on-call de inmediato «a la batalla».
14) Hoja de ruta para la implementación (4-6 semanas)
1. Ned. 1: inventario de cobertura, selección de modelo (24/7 o follow-the-sun), asignación de roles.
2. Ned. 2: ejecutar calendario + buscapersonas + bot, plantillas handover/SOP.
3. Ned. 3: piloto de 2-3 semanas de ciclo, recogida de métricas (alertas/hora, MTTA alrededor de los turnos).
4. Ned. 4: alert review, afinación de ruidos y cuotas, introducción de turnos de sombras.
5. Ned. 5-6: formalización de compensación/quiet hours, informes de gestión, automatización de swap's.
15) Resultado
La rotación es un proceso, no Excel: gráficos transparentes, roles y tarjetas handover; automatización del calendario y del buscapersonas; reglas justas y límites de fatiga; métricas de calidad y revisiones regulares. Con este enfoque, los turnos se vuelven predecibles, las personas son resilientes y los usuarios y socios no notan que el equipo cambia en horas.