Matriz de escalamiento
1) Asignación de matriz
La matriz de escalamiento es una sola regla de quién y cuándo se conecta para que los incidentes se traduzcan rápidamente del caos al proceso administrado. Ella establece:- los niveles de SEV y sus criterios;
- tiempos de espera (detección de → ack → escalamiento → apdate);
- roles/canales para cada paso;
- excepciones (sin «horas de silencio» para seguridad y cumplimiento);
- un conjunto con playbucks y una página de estado.
2) Clasificación por gravedad (SEV)
Especifique los números de destino para su dominio y SLO.
3) Matriz básica «quién/cuándo/dónde»
4) Árbol decisivo de las escaladas (esencia)
1. ¿Hay un impacto confirmado en SLO?
→ Sí: asignar IC, declarar SEV, abrir war-room.
→ No: ticket/observación, sin pagina.
2. ¿Hay ACK a tiempo?
→ Sí: continuamos por el playbook.
→ No: P2 → IC → DM (madera en el tiempo).
3. ¿Security/fugas/PII?
→ Siempre Security IR + Legal, se acuerdan los mensajes públicos.
4. ¿Proveedor externo?
→ Escalamiento de Vendor Owner, conmutación de rutas, fix en estado.
5) Funciones y responsabilidades en la escalada (breve)
P1 (Primary): triaje, inicio del playbook, conexión con IC.
P2 (Segundo): retroceso, acciones complejas, retención de contexto.
IC (Incident Commander): anuncia SEV, decide freeze/rollback, mantiene el ritmo.
Duty Manager: quita los bloqueos, reasigna recursos y toma decisiones org.
Comms: status page, apdates por SLA.
Seguridad IR: aislamiento, forenzica, avisos legales.
Vendor Owner: proveedores externos, switchover/fallback.
6) Guidas temporales (puntos de referencia)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Escalada forestal: P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Seguridad: sin retrasos y «horas tranquilas», apdates q = 15 m.
7) Enrutamiento y segmentación
Por servicio/región/tenant: clave de enrutamiento = 'service + region + tenant'.
Quórum de sondeos: escalar sólo cuando se confirman ≥2 fuentes independientes (synthetic de 2 regiones + RUM/SLI de negocios).
Dedoop: una alerta maestra en lugar de docenas de síntomas (la DB «roja» atasca el ruido 5xx).
8) Excepciones y regímenes especiales
Seguridad/Legal: aumento de Seguridad IR y Legal fuera de línea; textos públicos sólo a través de la armonización.
Proveedores: matriz de OLA/SLA separada (contactos, zonas horarias, prioridad).
Change Freeze: cuando se SEV-1/0, freeze automáticamente las versiones y las confecciones.
9) Métricas de madurez de matriz
Ack p95 (SEV-1/0) ≤ 5 minutos.
Time to Declare (mediana) ≤ 10 minutos.
Comms SLA Adherence ≥ 95%.
Éxito de escalada (decidido a nivel P1/P2) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time para proveedores críticos dentro del contrato.
10) Hojas de cheques
En línea (para on-call)
- Se ha determinado el impacto sobre el SLO y el SEV potencial.
- Hecho por ACK y asignado a IC (para SEV-1/0).
- Abierto el war-room, el playbook está adjunto.
- Status-update publicado/programado por SLA.
- Activado freeze (si es necesario), proveedor escalado/seguridad.
Procesador (revisión semanal)
- ¿La escalera de escalada funcionó por SLA?
- ¿No hubo escaladas innecesarias antes de la CI?
- ¿Las notificaciones de los clientes son oportunas y precisas?
- ¿Había bloqueadores (accesos, contactos de proveedores, canal «mudo»)?
- CAPA para fallas en el proceso también está en funcionamiento.
11) Plantillas
11. 1 Política de escalamiento (idea YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Tarjeta «escalada de tiempo» (para el bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Plantilla del primer apdate público
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Integraciones
Alert-as-Code: cada regla de Page hace referencia exactamente a un playbook y conoce su matriz de escalaciones.
ChatOps: comandos '/declare sev1 ', '/page p2', '/status update ', temporizadores automáticos de apdates.
CMDB/Catálogo: en el servicio - propietarios, on-call, matriz, proveedores, canales.
Status page: plantillas para SEV-1/0, historial de apdates, enlaces a RCA.
13) Anti-patrones
«Escalamos a todos a la vez» → ruido y responsabilidad borrosa.
No IC/war-room: las soluciones se distribuyen a través de los chats.
El retraso del primer apdate es el aumento de las quejas y los riesgos de PR.
No hay excepciones para la seguridad - riesgos legales.
Proveedores externos sin propietario y contactos.
La escalera no está automatizada - todo «en el mango».
14) Hoja de ruta para la implementación (3-5 semanas)
1. Ned. 1: fijar los criterios SEV y los tiempos de espera; recopilar contactos de roles/proveedores; seleccionar canales.
2. Ned. 2: describir la política (YAML), enlazar a Alert-as-Code, incluir el leñador en el buscapersonas/bot.
3. Ned. 3: piloto en 2-3 servicios críticos; depurar Comms SLA y plantillas.
4. Ned. 4-5: ampliar la cobertura, introducir la revisión semanal de Escalation y las métricas de madurez.
15) Resultado
La matriz de escaladas es la operativa Constitución de incidentes: quién, cuándo y cómo se conecta. Con SEV claros, temporizaciones, canales, excepciones de seguridad e integración con playbooks y página de estado, el equipo responde de forma rápida, coherente y transparente, y los usuarios ven apdates predecibles y una recuperación segura del servicio.