Operazioni e Gestione → Riduzione degli incidenti

Riduzione degli incidenti

1) Scopo e principi

L'obiettivo è quello di evitare che l'incidente si innalzi e ridurre al minimo i danni in termini di tempi di inattività, denaro, reputazione e rischi regolatori.

Principi:

Containment first - Interrompe la propagazione del guasto (blast radius ↓).
Graceful degradation: meglio «funziona peggio» che «non funziona affatto».
Decouple & fallback: componenti indipendenti e alternative sicure.
Definizione speed> perfect info - Azioni reversibili veloci (feature flag, route switch).
Comunicate early è una fonte di verità, stati chiari e ETA per stadio.

2) Modello di incidente e tassonomia conseguenze

Impatto: utenti (regione, segmento), denaro (GGR/NGR, processing), compilazione (KYC/AML), partner/provider.
Tipi: deterioramento delle prestazioni, interruzione parziale della dipendenza (PSP, KYC, provider di giochi), regressione del rilascio, incidente dei dati (ritenzione delle vetrine/ETL), carico DDoS/Spike.
Livelli (P1-P4) da inattività core-flow critica a difetto locale.

3) Pattern di riduzione degli effetti (tecnica)

3. 1 Localizzazione e vincolo blast radius

Isolamento per charts/regioni: disattiviamo lo shard/regione problematico, il resto continua a funzionare.
Circuito Breaker: disattivazione rapida delle dipendenze da errori/timeout per la protezione dei worker.
Bulkhead - singoli pool di connessioni/code per percorsi critici.
Traffic Shadowing/Canary: verifica parte del traffico attraverso la nuova versione fino al passaggio completo.

3. 2 Degrado controllato (graceful)

Modalità read-only: blocca temporaneamente le mutazioni (ad esempio tassi/depositi) salvando la navigazione e la cronologia.
Rifornimenti funzionali: disattivazione di widget/landskape secondari, raccomandazioni pesanti, ricerche hot.
Cash follback - Le risposte di servizio dalla cache stale (stale-while-revalidate), i modelli semplificati.
Limiti semplificati: riduzione delle dimensioni di batch/pagina, estensione TTL, disattivazione dei filtri costosi.

3. 3 Gestione del carico di lavoro

Shed/Throttle - Respingere le richieste in eccesso di «equo» per IP/chiave/endpoint, con priorità core-operative.
Backpressure: limitazione dei produttori per lag; altoparlante con jitter.
Queue shaping: code dedicate al flow P1 (pagamenti, autorizzazioni) e all'analisi di sfondo.

3. 4 Pulsanti veloci

Feature Flags & Kill-switch - Disattiva istantaneamente una fitta problematica senza rilascio.
Traffic Routing - Commutazione del provider (PSP), aggiramento del datacenter guasto, traduzione in replica a caldo.
Timeout, retrai, limiti QPS - tramite config center.

3. 5 Dati e report

Mutazioni ritardate: scrittura in outbox/loga e successiva consegna.
Denormalizzazione temporanea: riduzione del carico del database con la lettura di vetrine materializzate.
Degrade BI mostra temporaneamente last-good-snapshot con «dati alle 12:00 UTC».

4) Esempi di dominio (iGaming)

Il provider KYC fallisce: abilita un provider alternativo; per i limiti «a basso rischio», la verifica temporanea in uno scenario semplificato con limiti di fatturazione ridotti.
Alta latitanza PSP: priorità temporanea per i portafogli locali, riduzione dei limiti di pagamento, assegnazione di una parte dei pagamenti alla coda T + .
Il provider di videogiochi non è riuscito: nascondiamo i timer/provider specifici, salviamo lobby e alternative, visualizziamo il banner «Lavori in corso, prova X/Y».

5) Organizzazione e ruoli (ICS - Invident Comment System)

IC (Invident Comment) - Coordinare in modo unificato e priorizzare le azioni.
Ops Lead/SRE: containment, routine, flag fich, infrastruttura.
Comms Lead: aggiornamenti di stato, pagine di stato, chat/posta interna.
Subject Matter Owner - Proprietario del sottosistema interessato (PSP, KYC, provider di giochi).
Liaison alle imprese: prodotto, supporto, finanza, compilazione.
Scribe: timeline, soluzioni, manufatti per il post mortem.

Regola: non più di 7 © 2 persone nella war-room attiva, mentre le altre sono su richiesta.

6) Comunicazioni

I canali sono: pagina di stato, canale interno # incident, PagerDuty/telemost, modelli di update.
Ritmo: P1 - ogni 15-20 minuti; P2 - 30-60 min.
Il modello di update è quello che si è rotto e che è già stato fatto il prossimo passo, il punto di riferimento dell'ora del prossimo update.
Supporto clienti: macro e FAQ preconfezionate per L1/L2, marcatori di degrado parziale, politiche di compensazione.

7) Metriche di successo e trigger

MTTD/MTTA/MTTR, Tempo containment, SLO Burn Rate (1h/6h/24h finestre).
Revenue at risk - Valutazione dei segmenti mancanti di GGR/NGR.
Blast radius%: percentuale di utenti/regioni/funzioni influenzate.
Comms SLA: tempestività degli update di stato.
False-positive/false-negative alert, incidenti secondari.

Inneschi di degrado (esempi):

p95 API chiave> soglia di 5 minuti consecutivi per attivare cache-follback e trottling.
Consumer lag> 2 min congelare i produttori non critici, sollevare i worker.
PSP success <97% 10 min per trasferire la quota di traffico a PSP di riserva.

8) Playbook (compresse)

8. 1 «Latenza/api/deposit»

1. Controlla l'errore% e i timeout PSP esterni per attivare timeout brevi e retrai jitteri.
2. Attiva la cache dei limiti/guide, disattiva i controlli pesanti in posizione.
3. Reimposta parzialmente il traffico su PSP di riserva.
4. Ridurre temporaneamente i limiti di pagamento/deposito per ridurre i rischi.
5. Post-fix: indice/denorm, aumentare l'asincronicità.

8. 2 «KYC fuori»

1. Passa al provider alternativo, abilita «KYC semplificato» con restrizioni.
2. Memorizza nella cache gli stati KYC per quelli già superati.
3. Comunicazione, striscione sul profilo, ETA.

8. 3 «ETL/BI indietro»

1. Segna i pannelli stale + timestamp.
2. Sospendi le ricostruzioni pesanti, attiva quelle incrementali.
3. Parallelismo dei giubbotti, priorità per le vetrine con i KPI operativi.

9) Soluzioni di progettazione prima dell'incidente (proattiva)

Tabella flag - Interruttori atomici per endpoint/provider/widget.
Regole di trottling/shedding - Livelli pre-concordati bronzo/argento/oro per priorità.
Test di degrado: regolari «fire-drills», game-days, esperimenti di caos (aggiunta di ritardi/errori).
Quote di dipendenze esterne: limiti, bilancio degli errori, strategia backoff.
Runbook e - istruzioni brevi e comandi/confighi con esempi.

10) Sicurezza e compliance

Fail-safe - In caso di degrado, bloccare le operazioni a rischio di violazione anziché «aumentare i retrai».
PII e Find: per i giri manuali - controllo rigoroso, privilegi minimi, tornizzazione.
Tracce: registro completo delle azioni IC/operatori, modifica dei flag/configh, esportazione di timeline.

11) Anti-pattern

«Aspettiamo che sia chiaro» è la perdita di tempo d'oro del containment.
«Riprendiamo i retrai fino alla vittoria», una palla di neve e una tempesta alle dipendenze.
Flag globali senza segmentazione - Spegnete la candela, non l'elettricità in città.
Il silenzio per non spaventare è l'aumento dei ticetti, la perdita di fiducia.
Procedure manuali fragili senza controllo - rischio di compliance.

12) Assegno fogli

Prima di rilasciare le modifiche critiche

Percorso canarico + ripristino rapido (feature flag).
SLO guardrails e alert p95/errore%.
Il carico dei servizi dipendenti è modellato.
Piano di comunicazione e proprietari.

Durante l'incidente

Definito l'IC e i canali di comunicazione.
È stato applicato il containment (isolamento/flag/root).
Degrado gestito attivato.
Stato pagina aggiornato e supporto notificato.

Dopo l'incidente

Post mortem per 5 giorni lavorativi, senza «trovare i colpevoli».
Azioni con proprietari e deadline.
Test di ripetibilità: lo script è riprodotto e coperto da alert/test.
Playbook e training aggiornati.

13) Mini artefatti (modelli)

Modello di stato client (P1):

💡 Degrado parziale dei pagamenti presso il provider X della regione EU. I depositi sono disponibili attraverso metodi alternativi. Abbiamo attivato il giro e stiamo lavorando con il partner. Il prossimo aggiornamento è tra 20 minuti.

Modello post mortem (1 pagina):

Cos'è successo? L'impatto è la causa radice. Cosa ha funzionato/non ha funzionato.

14) Totale

Ridurre l'impatto degli incidenti è la disciplina delle soluzioni rapide e reversibili: localizzare, degradare in modo gestionale, ridistribuire il carico di lavoro, semplificare la trasparenza e consolidare i miglioramenti. Si vince la stabilità tattica di oggi e la si trasforma in resilienza strategica di domani.

Operazioni e Gestione → Riduzione degli incidenti

Riduzione degli incidenti

Durante l'incidente

Dopo l'incidente

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti