[SEV] Breve descripción y fecha

1) Principios y cultura

Blameless. El error es una propiedad del sistema, no de la persona. Buscamos «por qué funcionó así», no «quién tiene la culpa».
Hechos e invariantes. Cualquier conclusión se basa en la línea de tiempo, SLO, tracks y logs.
Publicidad dentro de la empresa. Los resultados y las lecciones están disponibles para los equipos relacionados.
Las acciones son más importantes que los protocolos. Documento sin cambios ≡ tiempo perdido.
Publicación rápida. Borrador postmortem - dentro de 48-72 horas después del incidente.

2) Taxonomía y criterios de incidentes

Gravedad (SEV):

SEV1 - inaccesibilidad total/pérdida de dinero/datos;
SEV2 - degradación sustancial (errores> SLO, p99 más allá);
SEV3 - Existe un escenario parcial de degradación/elusión.
Impacto: regiones/tenantes/productos afectados, duración, métricas de negocio (conversión, GMV, denegación de pago).
SLO/presupuesto erróneo: cuánto presupuesto se ha agotado, cómo afecta a la velocidad de los lanzamientos y experimentos.

3) Roles y proceso de incidente

Detectent Commander (IC): administra el proceso, prioriza los pasos y asigna propietarios.
Comunicación Lead: informa a los stakeholders/clientes sobre la plantilla.
Ops/On-call: liquidación, acciones mitigadoras.
Scribe: conduce la línea de tiempo y los artefactos.
Subject Matter Experts (SME): diagnóstico profundo.

Etapas: detección → escalamiento → estabilización → verificación → recuperación de → postmortem → introducción de mejoras.

4) Patrón postmortem (estructura)



5) RCA Techniques (Root Cause Search)

5 Why - sequential clarification of causes to the system level.
Ishikawa (fish bone) - factors "People/Processes/Tools/Materials/Environment/Dimensions."
Event-Chain/Ripple - a chain of events with probabilities and triggers.
Barrier Analysis - which "fuses" (timeouts, breakers, quotas, tests) were supposed to stop the incident and why they did not work.
Change Correlation - correlation with releases, config digs, feature flags, provider incidents.

Practice: Avoid "root cause = person/one bug." Look for a system combination (debt + lack of guard rails + irrelevant runbooks).

6) Communications and transparency

Internal: single channel (war-room), short updates according to the template: status → actions → ETA of the next update.
External: status page/newsletter with facts without "guilt," with apologies and an action plan.
Sensitivity: do not disclose PD/secrets; legal wording to be agreed.
After the incident: a summary note with human language and a link to a technical report.

External update template (brief):
"31 Oct 2025, 13:40 UTC - some users encountered payment errors (up to 18 minutes). The reason is the degradation of the dependent service. We turned on bypass mode and restored operation at 13:58 UTC. Apologies. Within 72 hours, we will publish a report with actions to prevent recurrence"

7) Actions and implementation management

Each action is owner, deadline, acceptance criteria, risk and priority relationship.
Action classes:
1. Engineering: timeout budgets, jitter retreats, breakers, bulkheads, backprescher, stability/chaos tests.
2. Observability: SLI/SLO, alert guards, saturation, traces, steady-state dashboards.
3. Process: runbook update, on-call workouts, game day, CI gates, bipartisan review for risky changes.
4. Architecture: cache with coalescing, outbox/saga, idempotency, limiters/shading.
Gates: releases fail unless "post-mortem critical actions" are closed (Policy as Code).
Verification: retest (chaos/load) confirms the elimination of the risk.

8) Integration of feedback

Sources:
Telemetry: p99/p99 tails. 9, error-rate, queue depth, CDC lag, retray budget.
VoC/Support: topics of calls, CSAT/NPS, churn signals, "pain points."
Product/Analytics: user behavior, failure/friction, drop-off in funnels.
Partners/Integrators: webhook failures, contract incompatibility, SLA timing.

Signal → decision loop:
1. The signal is classified (severity/cost/frequency).
2. An architectural ticket is created with a hypothesis and the price of the problem.
3. Falls into the engineering portfolio (quarterly/monthly), ranked by ROI and risk.
4. Execute → measure effect → update SLI/SLO/cost baselines.

9) Post-mortem maturity metrics

% postmortems published ≤ 72 h (target ≥ 90%).
Average "lead time" from incident to closure of key actions.
Reopen rate of actions (quality of DoD formulations).
Repeated incidents for the same reason (target → 0).
Proportion of incidents caught by guards (breaker/limiter/timeouts) vs "breakthrough."
Saturation of dashboards (SLI covering critical paths) and "noise" of alerts.
Share of game-day/chaos scenarios that simulate detected failure classes.

10) Example of postmortem (summary)

Event: SEV2. Payment API: up p99 to 1. 8s, 3% 5xx, 31 Oct 2025 (13:22–13:58 UTC).
Impact: 12% of payment attempts with retrays, part - cancellation. Erroneous budget q4: − 7%.
Root Cause: "slow success" of currency dependence (p95 + 400 ms), retrai without jitter → cascade.
Barrier failure: the breaker is configured only for 5xx, not for timeouts; there was no rate-cap for low priority.
What worked: hand shading and stale-rates feature flag.
Actions:
Enter timeout budget and jitter retrays (DoD: p99 <400 ms at + 300 ms to dependency).
Breaker for "slow success" and fallback stale data ≤ 15 minutes.
Update runbook "slow dependency," add chaos script.
Add dashboard "served-stale share" and alert at> 10%.
Enter release-gate: without passing chaos-smoke - prohibit release.

11) Artifact patterns

11. 1 Timeline (example)

13: 22:10 Alerta p99> 800ms (gateway)

13: 24:00 IC asignado, war-room abierto

13: 27:30 Identificado «éxito lento» currency-api

13: 30:15 Bandera Ficha stale-rates ON (10% de tráfico)

13: 41:00 Stale-rates 100%, p99 estabilizado 290ms

13: 52:40 Restricción de retraídas en gateway

13: 58:00 El incidente está cerrado, 30min de monitoreo


11. 2 Solutions and Validation (DoD)

Solución: habilitar breaker (slow_success)

DoD: secuencia de comandos chaos «+ 300ms a currency» - p99 <450ms, error_rate <0. 5%, stale_share < 12%


11. 3 Policy "gate" (check)

deny_release if any(postmortem_action. status!= "Done" and action. severity in ["critical"])


12) Anti-patrones

«Caza de brujas» y castigos → ocultar errores, perder señales.
Protocolo en aras del protocolo: documentos largos sin acciones/propietarios/plazos.
RCA de nivel «bug in code» sin factores sistémicos.
Cierre el incidente sin retesta y actualización de las bases de datos.
Falta de publicidad dentro de la empresa: repetir los mismos errores en otros equipos.
Ignorar la retroalimentación de los socios/sapport y las degradaciones «invisibles» (éxito lento).
Resumen «todo lo arreglado, seguir adelante» - sin cambios en la arquitectura/procesos.

13) Check-list del arquitecto

1. ¿Hay una sola plantilla postmortem y SLA de publicación ≤ 72 h?
2. ¿Los roles (IC, Comms, Scribe, SME) se asignan automáticamente?
3. ¿Los timelines están basados en telemetría (tracks/métricas/logs) y marcas de lanzamiento/banderas?
4. Las técnicas de RCA se aplican sistémicamente (5 Why, Ishikawa, Barrier)?
5. ¿Las acciones tienen propietarios, plazos y DoD, están relacionadas con el riesgo y las getas de los lanzamientos?
6. ¿El incidente hace que los scripts/alertas runbook/xaoc se actualicen?
7. Los canales VoC/Support incorporados, ¿hay una revisión regular de los «mejores dolores»?
8. ¿El presupuesto erróneo afecta a las políticas de lanzamiento y experimentación?
9. Las métricas de madurez son monitorizadas (time-to-postmortem, reopen rate, repetibilidad)?
10. ¿Está disponible una base de conocimientos y un análisis público en el equipo con una búsqueda?

Conclusión

Los postmortemas y la retroalimentación son el mecanismo de aprendizaje de la arquitectura. Cuando el análisis sin cargos, el efecto medible de las acciones y la integración de las señales de la producción se convierten en la norma, el sistema se vuelve más estable, más rápido y más claro cada semana. Haga que los hechos sean visibles, que las acciones sean obligatorias y que el conocimiento esté disponible, y que los incidentes se conviertan en combustible para la evolución de su plataforma.

[SEV] Breve descripción y fecha

deny_release if any(postmortem_action. status!= "Done" and action. severity in ["critical"])

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos