Matriz de escalamiento

1) Asignación de matriz

La matriz de escalamiento es una sola regla de quién y cuándo se conecta para que los incidentes se traduzcan rápidamente del caos al proceso administrado. Ella establece:

los niveles de SEV y sus criterios;
tiempos de espera (detección de → ack → escalamiento → apdate);
roles/canales para cada paso;
excepciones (sin «horas de silencio» para seguridad y cumplimiento);
un conjunto con playbucks y una página de estado.

2) Clasificación por gravedad (SEV)

SEV	Impacto	Ejemplos	Objetivos de tiempo
SEV-0	Inaccesibilidad total de los datos/negocios clave	Down regional, pérdida de datos Tier-0	Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1	Grave degradación de SLO	Pagos -3% a SLO, p95> 400 ms	Declare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2	La degradación parcial/elusión es posible	Un proveedor se cae, hay un folback	Declare ≤ 20 м; Comms según sea necesario
SEV-3	Impacto bajo/interno	Fallas que no afectan a los clientes	Sin apdates públicos

Especifique los números de destino para su dominio y SLO.

3) Matriz básica «quién/cuándo/dónde»

Evento	Tayming	Quién inicia	A quién estamos escalando	Canal/Herramienta	Comentario
Detección (Page)	T0 → inmediatamente	Monitoreo/P1	П1	Pager/chat # alerts-svc	Sujeción automática del playbook
ACK Page	≤ 5 minas (SEV-1/0)	П1	—	Pager	Si no hay ACK - Escalada automática
No-ACK	5 minas	Pager	П2	Paginador/sonido	Más adelante - IC después de 5-10 minutos
Declare SEV-1/0	≤ 10 minas	IC/P1	Duty Manager, Comms	# war-room- , página de estado	Freeze lanzamientos
First Comms	≤ de 15 minas	Comms (por IC)	Clientes/internos. steykholdery	Página de estado/correo	Plantilla «Impact-Diag-Acción-ETA»
Security trigger	En seguida	Security IR	IC, Legal, Exec	#sec-war-room	Sin quiet hours
Provider red	≤ 5 minas después de la confirmación	Vendor Owner	IC, Product	Canal de vendedores/correo	Iniciar switchover
No update	> 30 minutos (SEV-1/0)	Bot	IC/Comms	War-room	Recordatorio de los apdates SLA

4) Árbol decisivo de las escaladas (esencia)

1. ¿Hay un impacto confirmado en SLO?

→ Sí: asignar IC, declarar SEV, abrir war-room.
→ No: ticket/observación, sin pagina.

2. ¿Hay ACK a tiempo?

→ Sí: continuamos por el playbook.
→ No: P2 → IC → DM (madera en el tiempo).

3. ¿Security/fugas/PII?

→ Siempre Security IR + Legal, se acuerdan los mensajes públicos.

4. ¿Proveedor externo?

→ Escalamiento de Vendor Owner, conmutación de rutas, fix en estado.

5) Funciones y responsabilidades en la escalada (breve)

P1 (Primary): triaje, inicio del playbook, conexión con IC.
P2 (Segundo): retroceso, acciones complejas, retención de contexto.
IC (Incident Commander): anuncia SEV, decide freeze/rollback, mantiene el ritmo.
Duty Manager: quita los bloqueos, reasigna recursos y toma decisiones org.
Comms: status page, apdates por SLA.
Seguridad IR: aislamiento, forenzica, avisos legales.
Vendor Owner: proveedores externos, switchover/fallback.

6) Guidas temporales (puntos de referencia)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Escalada forestal: P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Seguridad: sin retrasos y «horas tranquilas», apdates q = 15 m.

7) Enrutamiento y segmentación

Por servicio/región/tenant: clave de enrutamiento = 'service + region + tenant'.
Quórum de sondeos: escalar sólo cuando se confirman ≥2 fuentes independientes (synthetic de 2 regiones + RUM/SLI de negocios).
Dedoop: una alerta maestra en lugar de docenas de síntomas (la DB «roja» atasca el ruido 5xx).

8) Excepciones y regímenes especiales

Seguridad/Legal: aumento de Seguridad IR y Legal fuera de línea; textos públicos sólo a través de la armonización.
Proveedores: matriz de OLA/SLA separada (contactos, zonas horarias, prioridad).
Change Freeze: cuando se SEV-1/0, freeze automáticamente las versiones y las confecciones.

9) Métricas de madurez de matriz

Ack p95 (SEV-1/0) ≤ 5 minutos.
Time to Declare (mediana) ≤ 10 minutos.
Comms SLA Adherence ≥ 95%.
Éxito de escalada (decidido a nivel P1/P2) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time para proveedores críticos dentro del contrato.

10) Hojas de cheques

En línea (para on-call)

Se ha determinado el impacto sobre el SLO y el SEV potencial.
Hecho por ACK y asignado a IC (para SEV-1/0).
Abierto el war-room, el playbook está adjunto.
Status-update publicado/programado por SLA.
Activado freeze (si es necesario), proveedor escalado/seguridad.

Procesador (revisión semanal)

¿La escalera de escalada funcionó por SLA?
¿No hubo escaladas innecesarias antes de la CI?
¿Las notificaciones de los clientes son oportunas y precisas?
¿Había bloqueadores (accesos, contactos de proveedores, canal «mudo»)?
CAPA para fallas en el proceso también está en funcionamiento.

11) Plantillas

11. 1 Política de escalamiento (idea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Tarjeta «escalada de tiempo» (para el bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Plantilla del primer apdate público


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integraciones

Alert-as-Code: cada regla de Page hace referencia exactamente a un playbook y conoce su matriz de escalaciones.
ChatOps: comandos '/declare sev1 ', '/page p2', '/status update ', temporizadores automáticos de apdates.
CMDB/Catálogo: en el servicio - propietarios, on-call, matriz, proveedores, canales.
Status page: plantillas para SEV-1/0, historial de apdates, enlaces a RCA.

13) Anti-patrones

«Escalamos a todos a la vez» → ruido y responsabilidad borrosa.
No IC/war-room: las soluciones se distribuyen a través de los chats.
El retraso del primer apdate es el aumento de las quejas y los riesgos de PR.
No hay excepciones para la seguridad - riesgos legales.
Proveedores externos sin propietario y contactos.
La escalera no está automatizada - todo «en el mango».

14) Hoja de ruta para la implementación (3-5 semanas)

1. Ned. 1: fijar los criterios SEV y los tiempos de espera; recopilar contactos de roles/proveedores; seleccionar canales.
2. Ned. 2: describir la política (YAML), enlazar a Alert-as-Code, incluir el leñador en el buscapersonas/bot.
3. Ned. 3: piloto en 2-3 servicios críticos; depurar Comms SLA y plantillas.
4. Ned. 4-5: ampliar la cobertura, introducir la revisión semanal de Escalation y las métricas de madurez.

15) Resultado

La matriz de escaladas es la operativa Constitución de incidentes: quién, cuándo y cómo se conecta. Con SEV claros, temporizaciones, canales, excepciones de seguridad e integración con playbooks y página de estado, el equipo responde de forma rápida, coherente y transparente, y los usuarios ven apdates predecibles y una recuperación segura del servicio.

Matriz de escalamiento

Procesador (revisión semanal)

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos