Operazioni e Gestione → Riduzione degli incidenti
Riduzione degli incidenti
1) Scopo e principi
L'obiettivo è quello di evitare che l'incidente si innalzi e ridurre al minimo i danni in termini di tempi di inattività, denaro, reputazione e rischi regolatori.
Principi:- Containment first - Interrompe la propagazione del guasto (blast radius ↓).
- Graceful degradation: meglio «funziona peggio» che «non funziona affatto».
- Decouple & fallback: componenti indipendenti e alternative sicure.
- Definizione speed> perfect info - Azioni reversibili veloci (feature flag, route switch).
- Comunicate early è una fonte di verità, stati chiari e ETA per stadio.
2) Modello di incidente e tassonomia conseguenze
Impatto: utenti (regione, segmento), denaro (GGR/NGR, processing), compilazione (KYC/AML), partner/provider.
Tipi: deterioramento delle prestazioni, interruzione parziale della dipendenza (PSP, KYC, provider di giochi), regressione del rilascio, incidente dei dati (ritenzione delle vetrine/ETL), carico DDoS/Spike.
Livelli (P1-P4) da inattività core-flow critica a difetto locale.
3) Pattern di riduzione degli effetti (tecnica)
3. 1 Localizzazione e vincolo blast radius
Isolamento per charts/regioni: disattiviamo lo shard/regione problematico, il resto continua a funzionare.
Circuito Breaker: disattivazione rapida delle dipendenze da errori/timeout per la protezione dei worker.
Bulkhead - singoli pool di connessioni/code per percorsi critici.
Traffic Shadowing/Canary: verifica parte del traffico attraverso la nuova versione fino al passaggio completo.
3. 2 Degrado controllato (graceful)
Modalità read-only: blocca temporaneamente le mutazioni (ad esempio tassi/depositi) salvando la navigazione e la cronologia.
Rifornimenti funzionali: disattivazione di widget/landskape secondari, raccomandazioni pesanti, ricerche hot.
Cash follback - Le risposte di servizio dalla cache stale (stale-while-revalidate), i modelli semplificati.
Limiti semplificati: riduzione delle dimensioni di batch/pagina, estensione TTL, disattivazione dei filtri costosi.
3. 3 Gestione del carico di lavoro
Shed/Throttle - Respingere le richieste in eccesso di «equo» per IP/chiave/endpoint, con priorità core-operative.
Backpressure: limitazione dei produttori per lag; altoparlante con jitter.
Queue shaping: code dedicate al flow P1 (pagamenti, autorizzazioni) e all'analisi di sfondo.
3. 4 Pulsanti veloci
Feature Flags & Kill-switch - Disattiva istantaneamente una fitta problematica senza rilascio.
Traffic Routing - Commutazione del provider (PSP), aggiramento del datacenter guasto, traduzione in replica a caldo.
Timeout, retrai, limiti QPS - tramite config center.
3. 5 Dati e report
Mutazioni ritardate: scrittura in outbox/loga e successiva consegna.
Denormalizzazione temporanea: riduzione del carico del database con la lettura di vetrine materializzate.
Degrade BI mostra temporaneamente last-good-snapshot con «dati alle 12:00 UTC».
4) Esempi di dominio (iGaming)
Il provider KYC fallisce: abilita un provider alternativo; per i limiti «a basso rischio», la verifica temporanea in uno scenario semplificato con limiti di fatturazione ridotti.
Alta latitanza PSP: priorità temporanea per i portafogli locali, riduzione dei limiti di pagamento, assegnazione di una parte dei pagamenti alla coda T + .
Il provider di videogiochi non è riuscito: nascondiamo i timer/provider specifici, salviamo lobby e alternative, visualizziamo il banner «Lavori in corso, prova X/Y».
5) Organizzazione e ruoli (ICS - Invident Comment System)
IC (Invident Comment) - Coordinare in modo unificato e priorizzare le azioni.
Ops Lead/SRE: containment, routine, flag fich, infrastruttura.
Comms Lead: aggiornamenti di stato, pagine di stato, chat/posta interna.
Subject Matter Owner - Proprietario del sottosistema interessato (PSP, KYC, provider di giochi).
Liaison alle imprese: prodotto, supporto, finanza, compilazione.
Scribe: timeline, soluzioni, manufatti per il post mortem.
Regola: non più di 7 © 2 persone nella war-room attiva, mentre le altre sono su richiesta.
6) Comunicazioni
I canali sono: pagina di stato, canale interno # incident, PagerDuty/telemost, modelli di update.
Ritmo: P1 - ogni 15-20 minuti; P2 - 30-60 min.
Il modello di update è quello che si è rotto e che è già stato fatto il prossimo passo, il punto di riferimento dell'ora del prossimo update.
Supporto clienti: macro e FAQ preconfezionate per L1/L2, marcatori di degrado parziale, politiche di compensazione.
7) Metriche di successo e trigger
MTTD/MTTA/MTTR, Tempo containment, SLO Burn Rate (1h/6h/24h finestre).
Revenue at risk - Valutazione dei segmenti mancanti di GGR/NGR.
Blast radius%: percentuale di utenti/regioni/funzioni influenzate.
Comms SLA: tempestività degli update di stato.
False-positive/false-negative alert, incidenti secondari.
- p95 API chiave> soglia di 5 minuti consecutivi per attivare cache-follback e trottling.
- Consumer lag> 2 min congelare i produttori non critici, sollevare i worker.
- PSP success <97% 10 min per trasferire la quota di traffico a PSP di riserva.
8) Playbook (compresse)
8. 1 «Latenza/api/deposit»
1. Controlla l'errore% e i timeout PSP esterni per attivare timeout brevi e retrai jitteri.
2. Attiva la cache dei limiti/guide, disattiva i controlli pesanti in posizione.
3. Reimposta parzialmente il traffico su PSP di riserva.
4. Ridurre temporaneamente i limiti di pagamento/deposito per ridurre i rischi.
5. Post-fix: indice/denorm, aumentare l'asincronicità.
8. 2 «KYC fuori»
1. Passa al provider alternativo, abilita «KYC semplificato» con restrizioni.
2. Memorizza nella cache gli stati KYC per quelli già superati.
3. Comunicazione, striscione sul profilo, ETA.
8. 3 «ETL/BI indietro»
1. Segna i pannelli stale + timestamp.
2. Sospendi le ricostruzioni pesanti, attiva quelle incrementali.
3. Parallelismo dei giubbotti, priorità per le vetrine con i KPI operativi.
9) Soluzioni di progettazione prima dell'incidente (proattiva)
Tabella flag - Interruttori atomici per endpoint/provider/widget.
Regole di trottling/shedding - Livelli pre-concordati bronzo/argento/oro per priorità.
Test di degrado: regolari «fire-drills», game-days, esperimenti di caos (aggiunta di ritardi/errori).
Quote di dipendenze esterne: limiti, bilancio degli errori, strategia backoff.
Runbook e - istruzioni brevi e comandi/confighi con esempi.
10) Sicurezza e compliance
Fail-safe - In caso di degrado, bloccare le operazioni a rischio di violazione anziché «aumentare i retrai».
PII e Find: per i giri manuali - controllo rigoroso, privilegi minimi, tornizzazione.
Tracce: registro completo delle azioni IC/operatori, modifica dei flag/configh, esportazione di timeline.
11) Anti-pattern
«Aspettiamo che sia chiaro» è la perdita di tempo d'oro del containment.
«Riprendiamo i retrai fino alla vittoria», una palla di neve e una tempesta alle dipendenze.
Flag globali senza segmentazione - Spegnete la candela, non l'elettricità in città.
Il silenzio per non spaventare è l'aumento dei ticetti, la perdita di fiducia.
Procedure manuali fragili senza controllo - rischio di compliance.
12) Assegno fogli
Prima di rilasciare le modifiche critiche
- Percorso canarico + ripristino rapido (feature flag).
- SLO guardrails e alert p95/errore%.
- Il carico dei servizi dipendenti è modellato.
- Piano di comunicazione e proprietari.
Durante l'incidente
- Definito l'IC e i canali di comunicazione.
- È stato applicato il containment (isolamento/flag/root).
- Degrado gestito attivato.
- Stato pagina aggiornato e supporto notificato.
Dopo l'incidente
- Post mortem per 5 giorni lavorativi, senza «trovare i colpevoli».
- Azioni con proprietari e deadline.
- Test di ripetibilità: lo script è riprodotto e coperto da alert/test.
- Playbook e training aggiornati.
13) Mini artefatti (modelli)
Modello di stato client (P1):- Cos'è successo? L'impatto è la causa radice. Cosa ha funzionato/non ha funzionato.
14) Totale
Ridurre l'impatto degli incidenti è la disciplina delle soluzioni rapide e reversibili: localizzare, degradare in modo gestionale, ridistribuire il carico di lavoro, semplificare la trasparenza e consolidare i miglioramenti. Si vince la stabilità tattica di oggi e la si trasforma in resilienza strategica di domani.