Reacția la incidente și accidente
(Secțiunea: Operațiuni și Management)
1) Definiții și obiective
Incident - un eveniment care încalcă SLO/securitate/conformitate sau creează un risc pentru clienți, bani, date, reputație.
Obiectivele reacției: pentru a restabili rapid serviciul, a minimiza daunele, a repara dovezile, a comunica transparent și a preveni repetarea.
Principii cheie
Siguranța în primul rând: Protejarea persoanelor/datelor/banilor asupra caracteristicilor.
Un singur gât pentru a se sufoca: Un singur comandant incident (IC) ia decizii.
Acționabil acum: fiecare ipoteză este urmată de un test/acțiune.
Dovezile contează: totul este înregistrat, artefactele sunt semnate, cronologia este detaliată.
2) Clasificare (severitate și prioritate)
Declanșator: încălcare SLO, regulă de alertă, raport manual, incident juridic (DPO/CCO).
3) Roluri și responsabilități (RACI)
Incident Commander (A) - lider incident, stabilirea sarcinilor, luarea deciziilor, schimbări IC pentru incidente lungi.
Tech Lead (R) - diagnostic tehnic/remedieri, coordonare SRE/inginerie.
Comms Lead (R) - scrie actualizări de stare (interior/exterior), proprietarul paginii de stare.
Scribe (R) - protocol, cronologie, colectarea de artefacte.
Securitate/Juridic (C/A pentru cazurile de securitate) - evaluarea riscurilor, notificări obligatorii.
Asistență pentru clienți (C) - șabloane de răspuns, rutarea biletelor.
Partener de legătură (C) - comunicare cu furnizorii/chiriașii.
Management (I) - informații, decizii de afaceri (împrumuturi/compensații).
4) Primele 15 minute (șablon)
1. Atribuiți un IC și deschideți un card incident (canal de chat, video bridge, Jira/Tracker).
2. Atribuiți un SEV și fixați simptomul SLO (ceea ce este încălcat exact).
- includ runbooks/rune: circuit-breakers, throttling, comutare traseu, pauză promo;
- în caz de compromis - funcții sensibile kill-switch.
- 4. Comenzi: Tech Lead - diagnosticare; Comms - „suport tehnic” (în 10-15 minute - prima actualizare).
- 5. Identificați ipoteze (trei maxime), atribuiți proprietarilor, setați cronometre pentru verificare (5-10 minute).
- 6. Colectați artefacte: instantanee de valori, configurații, hash-uri de lansare, jurnale cu 'trace _ id', chitanțe.
5) Prima oră (șablon)
Comunicare v1 (15-20 min): de fapt, ajunge, simptome, ceea ce facem, următoarea actualizare. Fără speculaţii.
Limitele incidentelor: ce regiuni/chiriași/canale/versiuni sunt afectate.
Controlul daunelor: capace/restricții temporare, deconectarea integrărilor „zgomotoase”, activarea modului de degradare.
Criminalistică: îngheață rotațiile jurnalului, protejează artefactele (WORM/semnături).
Foaie de parcurs recuperare: T + 30/T + 60 cu puncte de verificare.
6) Comunicații și pagina de stare
Intervale interne: P1 - la fiecare 15 min, P2 - 30-60 min.
Extern: status page/chiriași/parteneri SLA.
- Ceea ce puteți vedea: „cu X: YY UTC, creșterea eșecurilor de checkout în regiunea UE (p95> 250 ms)”
- Afectat: „Operatorii A/B/C ~ 40% din trafic”
- Ce facem: "a inclus o rută alternativă, promo; lucrăm cu furnizorul" PSP-1
- Date/termene limită: „următoarea actualizare în 15 minute”
- Compensații: „se aplică notele de credit conform SLA după închiderea incidentului”
7) Playbooks (referințe pentru iGaming/fintech)
PriceMismatch (casetă de prezentare ≠ checkout): cache force disability, 'fx _ version/tax _ rule _ version' reconciliere, promo înghețare dinamică, compensare discrepanță politică.
WebhookLag (parteneri/afiliați): scalarea lucrătorilor, creșterea lotului, retraiele prioritare, plafonarea temporară a noilor abonamente.
Întreruperea plăților/degradarea PSP: trecerea la un PSP de rezervă, reducerea timpilor clienților, compensarea manuală a cozii, tranzacțiile gri în carantină.
RTP Drift: pauză bonus, paytable/version check, extensie fereastră de monitorizare, RTP profil rollback.
Fraudă Spike: strângeți viteza/limitele, includeți verificarea suplimentară KYC, izolați cohortele suspecte, revizuiți manual câștigurile mari.
Date/PII Expunere: izolarea sistemului, DPO/Notificare juridică, inventarierea înregistrărilor afectate, notificări de reglementare în funcție de cronologie.
8) Unelte și rune (auto-acțiuni)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Dezactivați Webhooks, Activați modul de siguranță.
Șine de pază: protecție împotriva „șeilor” - rollback-urile sunt limitate, jurnalele sunt semnate, fiecare acțiune ↔ IC/Scribe.
Provability: semnături DSSE, hash-uri instantanee, felii de jurnal Merkle.
9) Sfârșitul incidentului
Criterii: SLO restaurat, coadă răscumpărat, date/bani reconciliat, riscuri închise, comunicări trimise.
Ritualul de închidere: actualizarea stării finale, cronologia fixă, lista influențelor, ipotezele preliminare ale cauzelor, data post-mortem atribuită.
10) Post-mortem (fără taxe)
Termen: P1 - în termen de 3 zile lucrătoare; P2 - 5 zile lucrătoare.
Conținut: fapte/cronologie, cauze profunde (5 Whys/FRAM), impact (SLO, finanțe, clienți), ceea ce a funcționat/nu, elemente de acțiune (proprietar, termen, efect măsurabil).
Verificarea eficacității: după 30-60 de zile - revizuirea performanței și a măsurătorilor (repetabilitate, MTTR, zgomot de alertă).
11) Metrica de gestionare a incidentelor și SLO-uri
MTTD/MTTA/MTTR, Schimbare Rata de eșec, Timp la Comms v1,% auto-permis (rune).
Alertă zgomot: procentaj de semnale irelevante, pagini per tură de apel.
Incidente repetate: Proporția de repetări în 90 de zile.
Post-mortem SLA: proporția de finalizat/închis la timp.
Reacţii SLO: P1 - prima comunicare ≤ 15 min; MTTR ≤ 60 min; integralitatea artefactului = 100%.
12) Lege/Conformitate/Confidențialitate
Notificări legale: calendarul autorităților locale de reglementare pentru scurgeri/incidente.
Minimizarea PII: accesul la primar numai prin jabs aprobate; tokenizare/mascare.
Depozitarea artefactelor: jurnalele WORM, perioada de păstrare în funcție de jurisdicție; controlul accesului (RBAC/ABAC, JIT).
Contrapărți: SLA contractuale, procesul de escaladare, încasările procedurilor.
13) Organizarea datoriei și escaladarea
24 × 7 de gardă: rotație după rol (SRE, App, Date, Securitate, Plăți).
Matrice de escaladare: cine pentru regiuni/produse/furnizori; contacte duplicate (chat/voce/SMS).
Exerciții (GameDays): simulări - picătură PSP, avalanșă de retraire, aliniere greșită a prețurilor, compromis cheie, eșec regional.
14) Tablouri de bord ale incidentelor
Căldură (acum): starea SLO, p95/p99, harta regiunilor/chiriașilor, coada de sarcini, artefacte colectate/nu.
Istorie: tendințe în funcție de tipul incidentului, eficiența runelor, provoacă recurență.
Controlul calității: cronologie completă, „acoperire” a postmortems, comunicații SLA.
15) Lista de verificare a implementării
- Aprobați scala SUV și declanșatoarele SLO.
- Atribuiți roluri (IC/Tech/Comms/Scribe/Sec/Legal) și rotații 24 × 7.
- Lansarea unui singur șablon de card incident și pagina de stare.
- Descrieți cărțile de redare (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
- Implementați rune cu audit și buton roșu.
- Activați colecția WORM/Semnături/Artefact.
- Procedura de comunicații (intern/extern), actualizări SLA.
- Procesul post-mortem și șabloane; KPI de execuție elemente de acțiune.
- GameDays lunar; revizuirea trimestrială a tendințelor incidentelor.
- Tabloul de bord IR metrici (MTTA/MTTR/Zgomot/Repeat/Comms SLA).
16) ÎNTREBĂRI FRECVENTE
De ce „singur IC”?
Un singur punct de decizie elimină haosul și accelerează reacțiile.
Când să anunțe public?
De îndată ce există un fapt confirmat și un plan de stabilizare. Evaluarea termenelor de reglementare.
Ce este mai important - un fix sau un raport?
În primul rând, recuperare și securitate. În paralel - colecția de artefacte. Raport - după stabilizare.
Este posibil să automatizăm totul?
Nu, dar runele închid paşii „frecvenţi şi simpli”. Restul este prin playbook-uri clare și antrenamente.
Recap: Răspunsul puternic la incidente nu este doar despre PagerDuty și canalul de chat. Aceasta este o disciplină a rolurilor, primele 15 minute rapide, rune controlate, comunicații transparente, criminalistică cu probabilitate și post-mortem obligatorii. Cu acest circuit, reduceți MTTR, protejați banii și datele și creșteți încrederea clienților și a reglementărilor.