GH GambleHub

Matriz de escalamiento

1) Asignación de matriz

La matriz de escalamiento es una sola regla de quién y cuándo se conecta para que los incidentes se traduzcan rápidamente del caos al proceso administrado. Ella establece:
  • los niveles de SEV y sus criterios;
  • tiempos de espera (detección de → ack → escalamiento → apdate);
  • roles/canales para cada paso;
  • excepciones (sin «horas de silencio» para seguridad y cumplimiento);
  • un conjunto con playbucks y una página de estado.

2) Clasificación por gravedad (SEV)

SEVImpactoEjemplosObjetivos de tiempo
SEV-0Inaccesibilidad total de los datos/negocios claveDown regional, pérdida de datos Tier-0Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1Grave degradación de SLOPagos -3% a SLO, p95> 400 msDeclare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2La degradación parcial/elusión es posibleUn proveedor se cae, hay un folbackDeclare ≤ 20 м; Comms según sea necesario
SEV-3Impacto bajo/internoFallas que no afectan a los clientesSin apdates públicos

Especifique los números de destino para su dominio y SLO.

3) Matriz básica «quién/cuándo/dónde»

EventoTaymingQuién iniciaA quién estamos escalandoCanal/HerramientaComentario
Detección (Page)T0 → inmediatamenteMonitoreo/P1П1Pager/chat # alerts-svcSujeción automática del playbook
ACK Page≤ 5 minas (SEV-1/0)П1PagerSi no hay ACK - Escalada automática
No-ACK5 minasPagerП2Paginador/sonidoMás adelante - IC después de 5-10 minutos
Declare SEV-1/0≤ 10 minasIC/P1Duty Manager, Comms# war-room- , página de estadoFreeze lanzamientos
First Comms≤ de 15 minasComms (por IC)Clientes/internos. steykholderyPágina de estado/correoPlantilla «Impact-Diag-Acción-ETA»
Security triggerEn seguidaSecurity IRIC, Legal, Exec#sec-war-roomSin quiet hours
Provider red≤ 5 minas después de la confirmaciónVendor OwnerIC, ProductCanal de vendedores/correoIniciar switchover
No update> 30 minutos (SEV-1/0)BotIC/CommsWar-roomRecordatorio de los apdates SLA

4) Árbol decisivo de las escaladas (esencia)

1. ¿Hay un impacto confirmado en SLO?

→ Sí: asignar IC, declarar SEV, abrir war-room.
→ No: ticket/observación, sin pagina.

2. ¿Hay ACK a tiempo?

→ Sí: continuamos por el playbook.
→ No: P2 → IC → DM (madera en el tiempo).

3. ¿Security/fugas/PII?

→ Siempre Security IR + Legal, se acuerdan los mensajes públicos.

4. ¿Proveedor externo?

→ Escalamiento de Vendor Owner, conmutación de rutas, fix en estado.

5) Funciones y responsabilidades en la escalada (breve)

P1 (Primary): triaje, inicio del playbook, conexión con IC.
P2 (Segundo): retroceso, acciones complejas, retención de contexto.
IC (Incident Commander): anuncia SEV, decide freeze/rollback, mantiene el ritmo.
Duty Manager: quita los bloqueos, reasigna recursos y toma decisiones org.
Comms: status page, apdates por SLA.
Seguridad IR: aislamiento, forenzica, avisos legales.
Vendor Owner: proveedores externos, switchover/fallback.

6) Guidas temporales (puntos de referencia)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Escalada forestal: P1→P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Seguridad: sin retrasos y «horas tranquilas», apdates q = 15 m.

7) Enrutamiento y segmentación

Por servicio/región/tenant: clave de enrutamiento = 'service + region + tenant'.
Quórum de sondeos: escalar sólo cuando se confirman ≥2 fuentes independientes (synthetic de 2 regiones + RUM/SLI de negocios).
Dedoop: una alerta maestra en lugar de docenas de síntomas (la DB «roja» atasca el ruido 5xx).

8) Excepciones y regímenes especiales

Seguridad/Legal: aumento de Seguridad IR y Legal fuera de línea; textos públicos sólo a través de la armonización.
Proveedores: matriz de OLA/SLA separada (contactos, zonas horarias, prioridad).
Change Freeze: cuando se SEV-1/0, freeze automáticamente las versiones y las confecciones.

9) Métricas de madurez de matriz

Ack p95 (SEV-1/0) ≤ 5 minutos.
Time to Declare (mediana) ≤ 10 minutos.
Comms SLA Adherence ≥ 95%.
Éxito de escalada (decidido a nivel P1/P2) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time para proveedores críticos dentro del contrato.

10) Hojas de cheques

En línea (para on-call)

  • Se ha determinado el impacto sobre el SLO y el SEV potencial.
  • Hecho por ACK y asignado a IC (para SEV-1/0).
  • Abierto el war-room, el playbook está adjunto.
  • Status-update publicado/programado por SLA.
  • Activado freeze (si es necesario), proveedor escalado/seguridad.

Procesador (revisión semanal)

  • ¿La escalera de escalada funcionó por SLA?
  • ¿No hubo escaladas innecesarias antes de la CI?
  • ¿Las notificaciones de los clientes son oportunas y precisas?
  • ¿Había bloqueadores (accesos, contactos de proveedores, canal «mudo»)?
  • CAPA para fallas en el proceso también está en funcionamiento.

11) Plantillas

11. 1 Política de escalamiento (idea YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Tarjeta «escalada de tiempo» (para el bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Plantilla del primer apdate público


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integraciones

Alert-as-Code: cada regla de Page hace referencia exactamente a un playbook y conoce su matriz de escalaciones.
ChatOps: comandos '/declare sev1 ', '/page p2', '/status update ', temporizadores automáticos de apdates.
CMDB/Catálogo: en el servicio - propietarios, on-call, matriz, proveedores, canales.
Status page: plantillas para SEV-1/0, historial de apdates, enlaces a RCA.

13) Anti-patrones

«Escalamos a todos a la vez» → ruido y responsabilidad borrosa.
No IC/war-room: las soluciones se distribuyen a través de los chats.
El retraso del primer apdate es el aumento de las quejas y los riesgos de PR.
No hay excepciones para la seguridad - riesgos legales.
Proveedores externos sin propietario y contactos.
La escalera no está automatizada - todo «en el mango».

14) Hoja de ruta para la implementación (3-5 semanas)

1. Ned. 1: fijar los criterios SEV y los tiempos de espera; recopilar contactos de roles/proveedores; seleccionar canales.
2. Ned. 2: describir la política (YAML), enlazar a Alert-as-Code, incluir el leñador en el buscapersonas/bot.
3. Ned. 3: piloto en 2-3 servicios críticos; depurar Comms SLA y plantillas.
4. Ned. 4-5: ampliar la cobertura, introducir la revisión semanal de Escalation y las métricas de madurez.

15) Resultado

La matriz de escaladas es la operativa Constitución de incidentes: quién, cuándo y cómo se conecta. Con SEV claros, temporizaciones, canales, excepciones de seguridad e integración con playbooks y página de estado, el equipo responde de forma rápida, coherente y transparente, y los usuarios ven apdates predecibles y una recuperación segura del servicio.

Contact

Póngase en contacto

Escríbanos ante cualquier duda o necesidad de soporte.¡Siempre estamos listos para ayudarle!

Iniciar integración

El Email es obligatorio. Telegram o WhatsApp — opcionales.

Su nombre opcional
Email opcional
Asunto opcional
Mensaje opcional
Telegram opcional
@
Si indica Telegram, también le responderemos allí además del Email.
WhatsApp opcional
Formato: +código de país y número (por ejemplo, +34XXXXXXXXX).

Al hacer clic en el botón, usted acepta el tratamiento de sus datos.