Escaladarea incidentelor
1) Scop și principii
Escaladarea incidentelor este procesul gestionat de atragere rapidă a rolurilor și resurselor potrivite pentru a minimiza impactul asupra utilizatorilor și a metricii de afaceri.
Principii cheie:- Viteza este mai importantă decât idealitatea. Este mai bine să declarăm incidentul mai devreme și să ne dezescaladăm decât să întârziem.
- Comandă unificată. O persoană responsabilă pentru soluție este Incident Commander (IC).
- Transparență. Stări clare și canale de comunicare pentru părțile interesate interne și externe.
- Documentabilitate. Toate etapele, deciziile și termenele sunt capturate pentru audit și îmbunătățire.
2) Gradație de severitate (niveluri SEV/P)
Exemplu de scară (adaptare la domeniu/jurisdicții):- SEV-0/P0 (critică) - indisponibilitatea completă a funcției cheie (autentificare/plată), scurgeri de date, risc juridic. Paginare imediată a întregului kernel de gardă, eliberări de congelare.
- SEV-1/P1 (ridicat) - degradarea p95/p99, creșterea ponderii erorilor/eșecurilor în procesul cheie, inaccesibilitatea regiunii/furnizorului.
- SEV-2/P2 (mediu) - degradare parțială pentru o cohortă limitată (regiune, furnizor), există o soluție.
- SEV-3/P3 (scăzut) - nu este critic pentru utilizator, dar necesită atenție (întârziere fundal ETL, raport întârziat).
- Raza leziunii (cati utilizatori/cifra de afaceri) × durata × sensibilitate (reglementare/PR) → nivel SEV.
3) Procesul KPI
MTTD (timp de detectare) - de la începutul incidentului până la primul semnal.
MTTA (Receive Time) - Semnal pentru confirmarea IC.
MTTR (timpul de recuperare) - până când SLO/funcția este restabilită.
Latenta de escaladare - de la confirmare la conectarea rolului/comenzii dorite.
Rata de redeschidere - proporția incidentelor redeschise după „rezolvare”.
Comm SLA - respectarea intervalelor de actualizări externe/interne.
4) Roluri și responsabilități (RACI)
Incident Commander (IC): proprietarul soluției, stabilește nivelul, planul, înghețarea, escaladarea, dezescaladarea. Nu scrie remedieri.
Tech Lead (TL): diagnostic tehnic, ipoteze, coordonarea inginerilor.
Comms Lead (CL): pagini de stare, client și comunicare internă, coordonare cu Legal/PR.
Scrib: înregistrarea exactă a faptelor, termenele, deciziile luate.
Legături: reprezentanți ai furnizorilor/echipelor externe (plăți, KYC, hosting).
Ingineri de gardă: executarea planului, lansarea playbook-urilor/rollback-urilor.
Atribuiți programe de taxe și copii de rezervă pentru fiecare rol.
5) Canale și artefacte
War-room channel (ChatOps): un singur punct de coordonare (Slack/Teams) cu un șablon de auto-adnotări (versiuni, steaguri, canare).
Video bridge pentru SEV-1 +.
Bilet incident (one-pager): ID, SEV, IC, participanți, ipoteză/diagnostic, pași, ETA, stare, impact, link-uri către grafice.
Status page: public/intern; program de actualizări regulate (de exemplu, la fiecare 15-30 de minute pentru SEV-1 +).
6) Cutii de timp și intervale standard
T0 (min. 0-5): IC atribuit, SEV atribuit, eliberări congela (dacă este necesar), război-cameră deschisă.
T + 15 min: primul mesaj public/intern (ceea ce este afectat, soluție, următoarea fereastră de actualizare).
T + 30/60 min: escaladarea nivelului următor (platformă/DB/securitate/furnizori), dacă nu există o dinamică stabilă.
Actualizări regulate: SEV-0: la fiecare 15 minute; SEV-1: la fiecare 30 de minute; SEV-2 +: în fiecare oră.
7) Reguli de auto-escaladare (politici de declanșare)
Inregistrat ca cod si conectat la monitorizare/alertare:- Burn-rate bugetul de eroare peste prag în ferestre scurte și lungi.
- Cvorumul probelor externe: regiunile ≥2 înregistrează degradarea HTTP/TLS/DNS.
- SLI de afaceri (succesul plăților/înregistrărilor) scade sub SLO.
- Semnături de securitate: suspiciune de scurgere/compromis.
- Semnal furnizor: starea de webhook „întrerupere majoră”.
8) Procesul de la descoperire la soluție
1. Incident Declarație (IC): SEV, acoperire, congela, lansarea playbook.
2. Diagnosticare (TL): ipoteze, izolarea razei (regiune, furnizor, caracteristică), verificări (DNS/TLS/CDN/DB/caches/bus).
3. Acțiuni atenuante (victorii rapide): rollback/ ↓ canar, caracteristică de pavilion de degradare, failover furnizor, rate-limit, suprapunere cache.
4. Comunicare (CL): status page, clienți/parteneri, Legal/PR, actualizări în grafic.
5. Confirmarea recuperării: sintetice externe + metrici reali (SLI), îndepărtarea prin îngheț.
6. De-escaladare: scăderea VES, trecerea la observarea N minute/ore.
7. Închiderea și RCA: pregătirea post-mortem, elemente de acțiune, proprietari și calendarul.
9) Lucrul cu furnizorii externi
Eșantioane proprii furnizorilor din mai multe regiuni + exemple de cereri/erori de jurnal de oglindă.
Acorduri de escaladare (contacte, SLA-uri de răspuns, prioritate, carti web de stare).
Transfer automat de failover/trafic prin intermediul furnizorului SLO.
Baza de probe: cronologie, cereri de eșantionare/răspunsuri, grafice de latență/eroare, ID-ul biletului furnizorului.
10) Reglementare, Siguranță și PR
Security/P0: izolare, colectarea artefactelor, minimizarea dezvăluirii, notificări obligatorii (interne/externe/regulator).
Juridic: aprobarea formulării actualizărilor externe, contabilizarea SLA contractuale/amenzi.
PR/Customer Service: șabloane de răspuns gata făcute, Q&A, compensații/credite (dacă este cazul).
11) Șabloane de mesaje
Primar (T + 15):- "Investigăm un incident SEV-1 care afectează [funcţia/regiunea]. Simptome: [pe scurt]. Am activat soluția [descriere]. Următoarea actualizare este la [time]"
- "Diagnostic: [ipoteză/confirmare]. Acțiuni: [furnizor comutat/eliberare laminată/degradare activată]. Impact redus la [procent/cohortă]. Următoarea actualizare este [time]"
- "Incidentul SEV-1 a fost rezolvat. Motivul: [rădăcină]. Timpul de recuperare: [MTTR]. Pașii următori: [fix/checks/watch N ore]. Post-mortem - [când/unde]"
12) Playbooks (exemplar)
Scăderea succesului plăților: reducerea ponderii furnizorului A, transferul X% către B; Enable degrade-payments-UX includ retras în limite; anunta comanda fin.
creșterea API p99: reducerea canarului noii versiuni; opriți caracteristicile grele; creșterea cache-TTL; verificați indicii/conexiunile DB.
Problema DNS/TLS/CDN: verificați certificatele/lanțul; Actualizați comutatorul de înregistrare la CDN standby reconstrui memoria cache.
Suspiciune de securitate: izolarea nodului, rotirea cheii, permiterea stilourilor mTLS, colectarea artefactelor, notificarea legală.
13) De-escaladare și criterii „rezolvate”
Un incident este retrogradat dacă:- SLI/SLO stabil în zonele verzi ≥ intervalele N;
- au fost efectuate acțiuni de atenuare și observare - fără regresie;
- pentru clasa de securitate - vectorii sunt confirmați închiși, cheile/secretele sunt rotite.
Închidere - numai după fixarea cronologie, proprietarii de elemente de acțiune și termene limită.
14) Post-mortem (non-punitiv)
Structura:1. Fapte (cronologie, ce au văzut utilizatorii/valorile).
2. Cauza principală (tehnică/proces).
3. Ceea ce a funcționat/nu a funcționat în escaladare.
4. Măsuri preventive (încercări, alerte, limite, arhitectură).
5. Plan de acțiune cu termene limită și proprietari.
6. Link către bugetul de eroare și revizuirea SLO-urilor/proceselor.
15) Măsurători ale maturității proceselor
Procentul incidentelor raportate înainte de reclamațiile utilizatorilor.
MTTA pe niveluri SEVT; timp pentru a conecta rolul dorit.
Respectarea intervalelor de actualizare (Comm SLA).
Procentul de incidente rezolvate de playbook-uri fără „creativitate” manuală.
Executarea elementelor de acțiune din post-mortem la timp.
16) Anti-modele
„Cineva să facă ceva” - fără IC/roluri.
Polifonia în camera de război este o dispută pe versiuni în loc de acțiuni.
Declaraţie târzie → pierdere de timp pentru adunarea oamenilor.
Nu înghețați și eliberați adnotări - modificările concomitente maschează cauza.
Lipsa comunicării externe - escaladarea riscului de reclamații/PR.
Închiderea fără post-mortem și acțiuni - repetăm aceleași greșeli.
17) Lista de verificare IC (Card de buzunar)
- Atribuiți un SUV și deschideți camera de război.
- Atribuiți TL, CL, Scribe, verificați la apel prezent.
- Activați eliberarea-congela (dacă SEV-1 +).
- Confirmați sursele adevărului: tablouri de bord SLI, sintetice, jurnale, urmărire.
- Acceptați acțiuni de atenuare rapidă (rollback/steaguri/failover).
- Furnizați actualizări regulate programate.
- Criterii de captare pentru rezolvarea și monitorizarea post-recuperare.
- Inițiați post-mortem și atribuiți proprietarilor de elemente de acțiune.
18) Încorporarea în operațiunile zilnice
Zile de joc: simulări pe scenarii cheie.
Catalog Playbook: versionat, testat, cu parametri.
Instrumente: ChatOps comenzi „/declara „, „/pagină ”, „/stare „, „/rollback”.
Integrări: ticketing, status page, post-mortems, CMDB/service catalog.
Negocierea cu SLO/Error Budget: declanșează auto-escaladarea și îngheață regulile.
19) Linia de jos
Escaladarea este o disciplină operațională, nu doar un apel la însoțitor. Nivelurile clare de TVA atribuite de IC, cărțile de redare gata făcute, actualizarea timeboxurilor și integrarea cu metricile SLO și politicile bugetare transformă un incendiu haotic într-un proces ușor de gestionat, cu un rezultat previzibil - recuperare rapidă a serviciilor, risc minim de PR/reglementare și îmbunătățiri sistemice după fiecare incident.