GH GambleHub

Analisi post-incidenti

1) Perché le analisi post-incidenti

L'analisi post-incidente (post-mortem/AAR) è un processo strutturato di apprendimento dell'organizzazione dopo un guasto. L'obiettivo non è individuare i colpevoli, ma individuare le cause radici e favorevoli e consolidare le azioni misurabili (CAPA) che riducono il rischio di ripetizione e i costi degli incidenti, migliorando lo SLO, l'MTTR e la fiducia dei clienti/regolatori.

2) Principi (Just Culture)

Senza accuse, analizziamo i sistemi, le decisioni e il contesto, non le personalità.
I fatti sono più importanti delle opinioni: timeline, fogli, metriche, roulotte, artefatti del cambiamento.
Visione E2E - dai sintomi sul cliente alle dipendenze interne e ai provider esterni.
Ogni ipotesi è confermata da un esperimento/dati.
Circuito a circuito: analizzare la CAPA i punti di controllo del retest.

3) Quando eseguire l'analisi e quali sono i formati

Obbligatorio: SEC-0/1; Violazione della SLA/regolamentazione; Fuga di dati Rischio PR rilevante.
Accelerato (light): SEV-2 con evidenti effetti o sintomi ripetitivi.
AAR di comunicazione: se il guasto ha colpito lo stato/supporto, controlliamo gli update di SLAs e la qualità dei messaggi.

Tempo: bozza 48-72 ore, versione finale fino a 5 giorni lavorativi (se non specificata diversamente).

4) Ruoli e responsabilità

Proprietario analisi (RCA Lead) - Organizza il processo, organizza l'incontro, gestisce la qualità del report e la CAPE.
Incident Comment (IC) - Fornisce la fattispecie dell'incidente e della soluzione.
Tech Leader (sistemi) - Analisi delle cause che confermano i manufatti.
Comms/Support/Legale: valutazione delle comunicazioni e dei requisiti della compilazione.
Scribe: protocollo, raccolta delle prove, conformità alla struttura.
Stakeholder prodotto/business: impatto su client/fatturato, priorità di CAPA.

5) Preparazione: cosa raccogliere prima dell'incontro

Timeline (UTC) - T0 rilevamento → Tn ripristino; comunicati/flag/configi, stato dei provider.
I dati di osservazione includono grafici SLI/SLO, error-rate, percense, percezioni, screenshot.
Contesto delle modifiche: collegamenti a PR/deposito, migrazioni database, flag Fiech, piani di lavoro.
Impatto: coorti/regioni/provider, minuti di inattività, prestiti SLA.
Comunicazioni: bozze/post sulla pagina di stato, risposte allo zapport, annunci interni.
Regole/playbook: cosa sarebbe dovuto accadere in un processo in cui ci sono state deviazioni.

6) Tecniche di analisi (selezionare una combinazione)

5 Why: rapida autopsia della catena causale (rischio - eccessiva semplificazione).
Grafico Ishikawa (Fishbone): People/Process/Platform/Policy/Partner/Product.
Fault Tree Analysis (FTA) - Deduzione da un evento a più cause (AND/OR).
Change Analysis: ciò che è cambiato durante l'incidente vs è stabile.
Causal Graph: il grafico causa-effetto per microservizi complessi e dipendenze esterne.
La Human Factors Review è stanchezza, rumore informativo, runbook fuori luogo.

7) Struttura report (modello)

1. Riepilogo (Executive Summary): cosa, quando, chi è stato influenzato, lo stato finale.
2. Impatto: SLI/SLO, utenti, regioni/provider, minuti di inattività, effetti finanziari/regolatori.
3. Timeline (UTC): eventi chiave, comunicati, soluzioni IC, comunicazioni.
4. Osservazioni e dati: grafici, logi, roulotte, diagrammi e diagrammi.
5. Ipotesi e test: accettati/rifiutati, riferimenti a esperimenti/simulazioni.
6. Cause radici: sistema, processo/tecnica (termini chiari).
7. I fattori favorevoli sono perché non sono stati notati o fermati prima.
8. Ciò che ha funzionato non ha funzionato, processi, strumenti, persone.
9. CAPA: misure correttive e di prevenzione con proprietari/scadenze/metriche di successo.
10. Piano di verifica: punti di controllo D + 14/D + 30, criteri di chiusura.
11. Le versioni per gli esterni sono client/regolatori (senza dati sensibili).
12. Applicazioni: manufatti, link a tickets/PR, screenshot di dashboard.

8) CAPE: come rendere operative le azioni

Ogni azione ha un proprietario, un effetto deadline e un effetto KPI (ad esempio, riduzione del cambio-failure-rate di X%, ripetizione zero di 90 giorni, riduzione del burn-rate nei picchi).
Separare Corrective (correggere) e Preventive (evitare).
Collegare a policy-as-code: alert, gate SLO, scale automatico/limiti, GitOps.
La CAPA entra in un backlog pubblico con recensioni negli incontri operativi settimanali.

9) Controllo degli effetti e chiusura

Punti di controllo: D + 7 (intermedio), D + 14/D + 30 (base), D + 90 (totale).
Controllo: test/simulazioni (game day), traffico shadow, osservabilità (SLI stabili nella zona verde), nessuna ricaduta.
La chiusura può essere eseguita solo con CAPA completate e metriche confermate.

10) Comunicazioni e compliance

Interno: stato comprensibile per prodotti/supporto/gestione, SLA update rispettati.
Pagina esterna: stato, distribuzione ai clienti/partner; linguaggio senza accuse, piano di prevenzione chiaro.
Regolazione: tempi di notifica, depersonalizzazione degli esempi, conservazione invariata dei rapporti e degli artefatti.

11) Metriche di maturità del processo

Data di pubblicazione del report: fatto vs SLA (ad esempio, ≤5 giorni lavorativi).
CAPA competition rate:% di azioni chiuse entro il termine.
Reopen rate: percentuale di incidenti ripetuti in 90 giorni.
Parte delle cause di sistema vs «errore umano».
Alert-igiene: riduzione delle pagelle false, crescita degli alert rivestiti.
Modifica delle metriche DORA: MTTR, change-failure-rate prima/dopo.

12) Assegno fogli

Prima di esaminare

  • Il proprietario di RCA e la composizione dei partecipanti sono stati definiti.
  • Assemblare timeline e artefatti (login/grafici/comunicati/bandiere).
  • È stato valutato l'impatto per coorti/regione/provider.
  • Sono state preparate le bozze di Impatto e Timeline.
  • I criteri/playbook pertinenti sono mappati alle azioni effettive.

Durante

  • Sono state registrate ipotesi e basi accettate/rifiutate.
  • Definite le cause radici e favorevoli.
  • È stato creato un piano CAPA con KPI e scadenze.
  • Versioni del report concordate per gli esterni (se necessario).

Dopo

  • Report pubblicato entro la data di scadenza, accesso ai ruoli.
  • CAPE inseriti nel backlog, proprietari confermati.
  • Sono stati assegnati punti di controllo e mini-simulazione per la convalida.
  • Runbook/SOP/alert/documentazione aggiornati.

13) Anti-pattern

«È colpa dell'uomo X», senza alcun motivo di sistema.
Un rapporto senza CAPA o senza proprietari/scadenze è carta per carta.
Niente fatti/manufatti - conclusioni sulle sensazioni.
Lingua troppo comune («sovraccarico del database») senza modifiche specifiche.
Ignorare le comunicazioni e la compliance sono rischi di reputazione.
Chiudere senza controllare gli effetti - ricadute dopo settimane.

14) Mini modelli

Cappello report


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Formulazione causa radice (esempio)

💡 Combinazione: (1) modifica il validatore della mappa da p95 a 1. 2 c, (2) timeout per PSP-A 1 c senza retrai di bilancio, (3) assenza canary per il provider. Questo ha portato a una serie di timeout e un calo del successo dei pagamenti.

CAPO (porzione)

Abilita l'instradamento canary a PSP-A (1%→5%→25%), proprietario @ payments-tl, fino a 2025-11-07, KPI: zero P1 incidenti durante i rilasci dei provider da 30 giorni.
Riconfigurare timeout/retrai con tempo totale SLA 800 ms, proprietario @ platform-sre, a 2025-11-05, KPI: p99 <600 ms sotto carico N.

Aggiungi SLI Business per i coorti BIN, proprietario @ data-lead, a 2025-11-10, KPI: rilevamento degrado <5 min

15) Incorporazione nella pratica giornaliera

RCA-RCA settimanali: stato CAPA, nuove lezioni, aggiornamenti dei processi.
Catalogo post mortem in wiki con tag (servizio, SEC, motivi) e ricerca.
Le simulazioni per l'incidente sono tra 2-4 settimane per controllare le misure.
Includere le lezioni nell'onboording on-call e aggiornare gli script didattici.

16) Totale

Le analisi post-incidenti sono un meccanismo di miglioramento sistemico. Quando i fatti sono stati raccolti, la causalità è provata, le azioni sono misurabili e verificate, l'organizzazione accumula capitale operativo di affidabilità: cadono MTTR e incidenti ripetuti, aumentano la prevedibilità dei rilasci e la fiducia dei clienti.

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Telegram
@Gamble_GC
Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.