Análises pós-incidentes

1) Por que precisa de testes pós-incidentes

O exame pós-incidente (pós-mortem/AAR) é um processo estruturado de treinamento da organização após a falha. O objetivo não é encontrar culpados, mas identificar causas de raiz e contribuintes e consolidar ações mensuráveis (CAPA) que reduzam o risco de repetição e o custo de incidentes, melhorando o SLO, o MTTR e a confiança dos clientes/reguladores.

2) Princípios (Just Cultura)

Sem acusações, analisamos sistemas, decisões e contextos, não indivíduos.
Os factos são mais importantes do que as opiniões: timelines, logs, métricas, trailers, artefatos de mudanças.
Visão E2E: desde sintomas no cliente até dependências internas e provedores externos.
Verificável: cada hipótese é confirmada por um experimento/dados.
Circuito de circuito: análise de → CAPA → pontos de controle → retesta.

3) Quando iniciar a análise e quais são os formatos

Obrigatório: V-0/1; violação do SLA/regulação; fuga de dados; Risco PR significativo.
Acelerado (light): V-2 com influência notável ou sintomas repetitivos.
AAR de comunicação: Se a falha afetou o status da página/suporte, verifique os updates de SLAs e a qualidade das mensagens.

Prazo: rascunho de 48 a 72 horas, versão final de até 5 dias úteis (se não for o caso).

4) Papéis e responsabilidades

Dono do exame (RCA Lead): organiza o processo, mantém a reunião, é responsável pela qualidade do relatório e CAPA.
Invident Commer (IC): fornece a factualização do incidente e da solução.
Tech Lids (por sistemas): análise de razões que confirmam artefatos.
Comms/Apoio/Legal: avaliação de comunicações e requisitos de complacência.
Scribe: protocolo, coleta de provas, cumprimento de estrutura.
Steakholders de produto/negócio: impacto sobre clientes/circulação, priorização de CAPA.

5) Preparar: o que reunir antes da reunião

Timeline (UTC): T0 detecção → Tn recuperação; lançamentos/bandeiras de fich/configs, status de provedores.
Dados de observabilidade: gráficos SLI/SLO, error-rate, perfilados, logs, traçados, capturas de tela.
Contexto de mudanças: referências a PR/deplay, migrações de banco de dados, bandeiras de fique, planos de trabalho.
Impacto: cômodos/regiões/provedores afetados, minutos de interrupção, créditos SLA.
Comunicações: rascunhos/posts de status, respostas de safort, anúncios internos.
Políticos/playbooks: O que deveria acontecer no processo onde houve desvios.

6) Técnicas de análise (escolha uma combinação)

5 Why: rápida autópsia da cadeia causal (risco - simplificação excessiva).
Diagrama de Ishikawa (Fishbone): People/Processo/Platford/Policy/Partner/Product.
Fault Tree Analysis (FTA): dedução do evento para várias causas (AND/OR).
Mudança Analisis: O que mudou durante o incidente vs estável.
Causal Graph: Gráfico de causalidade para microsserviços complexos e dependências externas.
Human Factors Review: fadiga, barulho de informação, runbook 'i irrelevante.

7) Estrutura de relatório (modelo)

1. Resumo (Executive Summary): O que, quando, quem foi afetado, o status final.
2. Impacto: SLI/SLO, usuários, regiões/provedores, minutos de inatividade, efeitos financeiros/regulatórios.
3. Timeline (UTC): eventos-chave, lançamentos, soluções IC, comunicações.
4. Observações e dados: gráficos, logs, trailers, difs de configs/circuitos.
5. Suposições e verificações: as referências aceitas/rejeitadas para experimentos/simulações.
6. Razões de raiz: sistema/processo/técnica (definição clara).
7. Os fatores favoráveis são porque não repararam ou não pararam antes.
8. O que funcionou não funcionou, processos, ferramentas, pessoas.
9. CAPA: Medidas de correção e prevenção com proprietários/prazos/métricas de sucesso.
10. O plano de verificação é D + 14/D + 30, critérios de encerramento.
11. Versões externas: cliente/regulador (sem dados sensíveis).
12. Aplicativos: artefatos, referências a tíquetes/PR, screenshots de dashboards.

8) CAPA: como tornar as ações operacionais

Cada ação possui um proprietário, um efeito deadline e um efeito KPI (por exemplo, redução de mudança-failure-rate de X%, repetição zero de 90 dias, redução do burn-rate em picos).
Divida o Corrente (corrigir) e o Preventive (não permitir) medidas.
Vincule-se a policy-as-código: alerts, gates SLO, scale automático/limite, GitOps.
CAPA entra em um backlog público com revisões em reuniões operacionais semanais.

9) Verificar o efeito e fechar

Pontos de referência: D + 7 (intermediário), D + 14/D + 30 (essenciais), D + 90 (total).
Verificação: testes/simulações (game day), tráfego shadow, observabilidade (SLI estável na área verde), sem reincidência.
O fechamento só pode ser feito com as métricas de CAPA e confirmadas.

10) Comunicação e complacência

Interna: O status compreensível para alimentos/suporte/gestão, SLA update respeitado.
Externo: página de status, e e-mails para clientes/parceiros; linguagem sem acusações, plano claro de prevenção.
Regulação: prazos de notificação, despersonalização de exemplos, armazenamento constante de relatórios e artefatos.

11) Métricas de maturidade de processo

Tempo de publicação do relatório: fato vs SLA (por exemplo, ≤5 dias úteis).
CAPA complition rate:% das ações encerradas dentro do prazo.
Reopen rate: proporção de incidentes em 90 dias.
Porção de causa de sistema vs «erro humano».
Alert-higiene: redução de falsos pagies, crescimento de alertas cobertas de runbook 'ami.
Alteração das métricas DORA: MTTR, mudança-failure-rate antes/depois.

12) Folhas de cheque

Antes de analisar

O dono do RCA e a composição dos participantes foram definidos.
Coletado timeline e artefatos (logs/gráficos/lançamentos/bandeiras).
Foi avaliado o impacto por grupo/região/provedor.
Foram produzidos rascunhos das seções «Impacto» e «Timeline».
Políticas/playbooks relevantes são mapeadas com ações reais.

Durante

As hipóteses e bases aceitas/rejeitadas foram registradas.
São definidas as causas de raiz e contribuintes.
Plano CAPA formado com KPI e prazos.
Versões do relatório para os lados externos concordadas (se necessário).

Depois

Relatório publicado dentro do prazo, acesso por papel.
CAPA incluídos no backlog, proprietários confirmados.
Os pontos de controle e a simulação mini-simulada foram atribuídos.
Atualizados runbook/SOP/alert/documentação.

13) Anti-pattern

«Culpa do Homem X». Sem razões sistêmicas.
Relatório sem CAPA ou sem proprietários/prazos - papel por papel.
Não há factos ou artefactos - as conclusões são sensoriais.
Uma linguagem demasiado comum («sobrecarga do banco de dados»), sem alterações específicas.
Ignorar comunicações e complacências são riscos de reputação.
Fechar sem verificar os efeitos - recaídas semanas depois.

14) Mini-modelos

Chapéu de relatório


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Formulação da causa raiz (exemplo)

💡 Combinação: (1) altera o validador do cartão ↑ p95 para 1. 2 c, (2) tempo para PSP-A 1 c sem retais orçamentados, (3) falta de canary para o provedor. Isso levou a um grande número de temporizações e uma queda no sucesso dos pagamentos.

CAPA (fatia)

Incluir canary-roteamento para PSP-A (1%→5%→25%), proprietário de @ payments-tl, até 2025-11-07, KPI: zero P1 incidentes nos lançamentos de provedores 30 dias.
Reconfigurar os temporizadores/retrações com tempo total de SLA 800 ms, proprietário de @ plataforma-sre, para: 2025-11-05, KPI: p99 <600 ms sob carga de N.

Adicione um SLI de negócios por cômodos BIN, dono de @ data-lead, até: 2025-11-10, KPI: detecção de degradação <5 min

15) Incorporação à prática diária

RCA semanal: status CAPA, novas lições, atualizações de processos.
Catálogo de pós-mortems em wiki com marcas (serviço, SEV, razões) e busca.
Simulações motivadas pelo incidente dentro de 2-4 semanas para verificar as medidas.
A inclusão de aulas no sistema on-call e atualização de cenários de treinamento.

16) Resultado

As análises pós-incidentes são um mecanismo de melhoria do sistema. Quando os fatos são coletados, a causalidade é comprovada, as ações são mensuráveis e testadas, a organização acumula capital operacional de confiabilidade, com queda de MTTR e incidentes repetitivos, maior previsibilidade de lançamentos e confiança dos clientes.

Análises pós-incidentes

Durante

Depois

Formulação da causa raiz (exemplo)

CAPA (fatia)

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos