Métricas de incidentes

1) Por qué medir incidentes

Las métricas de incidentes convierten eventos caóticos en un proceso administrado: ayudan a reducir los tiempos de reacción y recuperación, reducen la repetibilidad de las causas, prueban la ejecución de SLO/contratos y encuentran puntos de automatización. Un buen conjunto de métricas cubre todo el ciclo: detección → clasificación → escalada → acciones de mitigación → recuperación → análisis → CAPA.

2) Definiciones y fórmulas básicas

Intervalos de eventos

MTTD (Mean Time to Nat) = tiempo medio desde T0 (inicio real de la influencia) hasta la primera señal/detección.
MTTA (Mean Time To Acknowledge) = tiempo medio desde la primera señal hasta el ack on-call.
MTTM (Mean Time To Mitigate) = tiempo medio antes de que el impacto disminuya por debajo del umbral SLO (a menudo = tiempo antes de la solución de elusión/degradación UX).
MTTR (Mean Time To Recover) = tiempo medio hasta la recuperación completa del SLI objetivo.
MTBF (Mean Time Between Failures) = intervalo medio entre incidentes relevantes.

Tiempos operativos

Time to Declare - Desde T0 hasta el anuncio oficial del nivel SEV/incidente.
Time to Comms - Desde el anuncio hasta el primer apdate público/interno por SLA.
Tiempo en el estado: duración en cada etapa (triage/diag/fix/verify).

Frecuencia y participación

Recuento de incidentes - Número de incidentes durante el período.
Tasa de Incident - en 1k/10k/100k de transacciones o solicitudes exitosas (normalización).
SEV Mix - distribución por gravedad (SEV-0... SEV-3).
SLA Breach Count/Rate - Número/proporción de violaciones de SLA externas.
Change Failure Rate es el% de los incidentes causados por cambios (versiones/confecciones/migraciones).

Calidad de las señales y los procesos

% Páginas actuables es la proporción de paginas que han dado lugar a acciones significativas en el playbook.
False Positive Rate (Páginas) es la proporción de falsos positivos.
Detection Coverage es la proporción de incidentes detectados por la automatización (no por los clientes/soporte).
Tasa de recuperación: proporción de incidentes repetidos con la misma causa raíz ≤90 días.
CAPA Completion -% de las acciones correctivas/de advertencia cerradas a tiempo.
Comms SLA Adherence es la proporción de apdates publicados a la frecuencia requerida.

3) Mapa de métricas por etapas del incidente

Etapa	Métricas clave	Cuestión
Detección	MTTD, Detection Coverage, Source Mix (monitoring vs users)	¿Qué tan rápido y quién identifica el problema?
Reacción	MTTA, Time to Declare, Page-to-Ack %, Escalation Latency	¿Qué tan rápido se moviliza el equipo y se apropia del SEV?
Mitigirovanie	MTTM, Workaround Success %, Change Freeze Latency	¿Cómo se reduce rápidamente el impacto a un nivel seguro?
Recuperación	MTTR, SLO Burn Stopped Time, Residual Risk Window	¿Cuándo el servicio volvió a la normalidad?
Komms	Time to Comms, Comms SLA Adherence, Sentiment/Complaints	¿Cuán cualitativa y puntual es la comunicación?
Formación	Postmortem Lead Time, CAPA Completion/Overdue, Reopen Rate	¿Estamos aprendiendo y cerrando el bucle de mejoras?

4) Normalización y segmentación

Normalice los contadores por volumen (tráfico, operaciones exitosas, usuarios activos).
Segmentar por: región/tenante, proveedor (PSP/KYC/CDN), tipo de cambio (código/configuración/infra), hora del día (día/noche), fuente de detección (synthetic/RUM/infra/support).
Los SLI empresariales (éxito de pagos, registros, recargos) son importantes para las empresas: las métricas de incidentes se vinculan a su degradación.

5) Objetivos de umbral (puntos de referencia, adaptarse al dominio)

MTTD: ≤ 5 min para Tier-0, ≤ 10-15 min para Tier-1.
MTTA: ≤ 5 min (24/7), ≤ 10 min (follow-the-sun).
MTTM: ≤ 15 min (Tier-0), ≤ 30-60 min (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 h (Tier-1).
Cobertura de detección: ≥ 85% por automatización.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (a tiempo): ≥ 85%.

6) Atribución de causas e impacto de los cambios

Asigne una causa primaria (Code/Config/Infra/Provider/Security/Data/Capacity) y un trigger (release ID, cambio de configuración, migración, factor externo) a cada incidente.
Mantén MTTR/Count conectado a Change - cuánto contribuyen los lanzamientos y las confecciones (base para las políticas de Gates/Canarios).
Considere por separado los incidentes de Provider-caused (PSP/KYC/CDN/Cloud) para administrar rutas y contratos.

7) Comunicaciones e impacto del cliente

Time to First Public Update y Update Cadence (por ejemplo, cada 15/30 min).
Complaint Rate - tickets/quejas sobre 1 incidente, tendencia.
Status Accuracy es una proporción de apdates públicos sin retracciones.
NPS Post-Incident (por clientes clave) - un breve impulso después de la SEV-1/0.

8) Métricas de la calidad de la alerta alrededor de incidentes

Page Storm Index - Número de paginas/hora por llamada en el momento del incidente (mediana/p95).
Dedup Efficiency es la proporción de duplicados suprimidos.
Quorum Confirmation Rate es la proporción de incidentes donde el quórum de las sondas (≥2 fuentes independientes) ha funcionado.
Shadow→Canary→Prod la conversión de las nuevas reglas (Alert-as-Code).

9) Dashboards (conjunto mínimo)

1. Executive (28 días): número de incidentes, distribución SEV, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: porcentaje de incidentes relacionados con lanzamientos/confecciones, MTTR para incidentes de cambio, ventanas de servicio vs incidentes.
4. Proveedores: incidentes por proveedor, tiempos de degradación, cambios de ruta, SLA contractuales.
5. Heatmap por servicios/regiones: incidentes y MTTR en transacciones 1k.

Combine los gráficos SLI/SLO con anotaciones de lanzamiento y marcas SEV.

10) Esquema de datos de incidentes (recomendado)

Campos mínimos de tarjeta/tabla:


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Ejemplos de cálculos (idea SQL)

MTTR para el período (mediana):

sql
SELECT PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');

Detection Coverage:

sql
SELECT 100. 0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Change Failure Rate (28 días):

sql
SELECT 100. 0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) Relación con SLO y presupuestos de errores

Fijar SLO burn minutes en un incidente es el principal «peso» del evento.
Priorice la CAPA en función del peso total y SEV, en lugar del número de incidentes.
Coser burn con el impacto financiero (ejemplo: $/minuto de inactividad o $/transacción perdida).

13) Métricas de madurez del proceso (nivel de programa)

Tiempo de entrega postmortem: mediana desde el cierre del incidente hasta la publicación del informe.
Evidence Completeness: proporción de informes con línea de tiempo, gráficos SLI, logs, enlaces PR/comms.
Alert Hygiene Score: índice compuesto por actuable/FP/dedoop/quórum.
Defectos de mano: proporción de turnos donde se pierde el contexto de incidentes activos.
Coverage Training:% on-call que ha pasado simulaciones en un trimestre.

14) Lista de verificación de la implementación de métricas

Se definen las marcas de tiempo unificado (UTC) y el contrato de eventos de incidentes.
Se ha aceptado el diccionario SEV, las causas (root cause taxonomy) y las fuentes de detección.
Las métricas se normalizan por volumen (tráfico/operaciones exitosas).
Listos 3 dashboards: Executive, Operations, Change Impact.
Alert-as-Code: cada regla de Page tiene un playbook y un propietario.
Post mortem SLA (por ejemplo, borrador ≤72ch, final ≤5 esclavo. días).
CAPA se trae con los KPI del efecto y las fechas D + 14/D + 30.
Revisión semanal de Incident: tendencias, razones principales, estado de CAPA.

15) Anti-patrones

Contar sólo MTTR sin MTTD/MTTA/MTTM → pérdida de manejabilidad de las primeras fases.
No normalizar en volumen → los grandes servicios «parecen» peores.
El SEV desordenado → la incomparecencia de los incidentes.
La ausencia de Evidence → controversia en lugar de mejoras.
Enfoque en el número de incidentes en lugar de la influencia burn/SLO.
Ignorar a Reopen y CAPA → recaídas eternas.
«Métricas en Excel» sin descarga automática desde telemetría/ITSM.

16) Mini plantillas

Tarjeta de incidente (abreviado)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3. 6% to SLO, burn = 18 min)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Informe ejecutivo (28 días, líneas clave)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 min; Median MTTD: 4 min; MTTA: 3 min; MTTM: 17 min
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3. 2%
Change Failure Rate: 33% (4/12) - 3 related to config
Reopen(90d): 1/12 (8. 3%); CAPA Completion: 82% (2 overdue)
Top Root Causes: provider(4), config(3), capacity(2)

17) Hoja de ruta (4-6 semanas)

1. Ned. 1: estándar de marcas de tiempo/campos, diccionario SEV/razones; escaparate básico de incidentes.
2. Ned. 2: cálculos MTTD/MTTA/MTTM/MTTR, normalización y SEV-dashboard.
3. Ned. 3: conjunto con lanzamientos/configuraciones, Detection Coverage y Alert Hygiene.
4. Ned. 4: Informe ejecutivo, SLA post mortem, rastreador CAPA.
5. Ned. 5-6: informes de proveedores, finmodelo de burn→$, objetivos trimestrales y revisión trimestral de Incident.

18) Resultado

Las métricas de incidentes no son sólo números, sino un guión gráfico de confiabilidad operativa. Cuando se mide todo el flujo (desde la detección a CAPA), se normalizan los indicadores, se asocian a SLO y cambios y se realizan revisiones regularmente, la organización previsiblemente reduce el tiempo de reacción, el costo y la repetibilidad de los incidentes - y los usuarios ven un servicio estable.

Métricas de incidentes

Tiempos operativos

Frecuencia y participación

Calidad de las señales y los procesos

Informe ejecutivo (28 días, líneas clave)

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos