Sistemul de notificare și alertă
(Secțiunea: Operațiuni și Management)
1) Scop și principii
Scopul este de a livra puțin, dar cu precizie: doar semnale relevante, în timp util și unei persoane responsabile/robot cu un pas următor ușor de înțeles.
Principii:- Acționabil în mod implicit: fiecare alertă are un proprietar, prioritate, timp de răspuns și un buton de acțiune.
- SLO-first: Alertele sunt construite în jurul SLI/SLO, nu metrici arbitrare.
- Controlul zgomotului: deadup, corelații, suprimarea furtunii.
- Bogat în context: metadate (regiune, chiriaș, versiune, trace_id) și link către runbook.
- Gata de audit: toate alertele și reacțiile sunt recunoscute și salvate în jurnalul neschimbat.
2) Surse de semnal
Alea. telemetrie: disponibilitate, p95/p99, eroare-rate, coadă lag, limite de resurse.
Evenimente de afaceri: PriceMismatch, WebhookLag, RTP Drift, semnale de fraudă.
Securitate/conformitate: încălcări SoD, acces PII, expirarea cheii/certificatului.
Scheduler: sarcini SLA expirate, avalanșe DLQ, încercați din nou furtuni.
3) Clasificarea și prioritățile
Guardrails: alertele sunt formulate în ceea ce privește bugetul SLO/eroare (rata de ardere).
4) Rutare și escaladare 24 × 7
Rutare în funcție de context: „regiune/chiriaș/produs/furnizor/severitate”.
Scară rulantă: inginer de gardă → conducător de comandă → Duty Manager → Μ/Legal (pentru PII/Finance).
Taxă: rotație după rol (SRE, App, Date, Securitate, Plăți), contacte de rezervă (chat/voce/SMS).
Ferestre de liniște: noapte, lansare, marketing; excepții pentru P1.
5) Reducerea zgomotului și corelații
Deduplicare: prin "(amprentă digitală, regiune, chiriaș, rută)" și "trace _ id'.
Suprimarea furtunii: suprimarea temporară a duplicatelor cu P1 activ.
Corelații: gruparea semnalelor în jurul cauzei rădăcinii (eliberare/caracteristică/furnizor).
Histerezis: intrare/ieșire din prag - diferit pentru a evita „ferăstrău”.
6) conținut de alertă (șablon)
Titlu: concis și material - „EU/Checkout: p95> 250ms (încălcare SLO)”.
Domenii cheie: prioritate, timp, regiune, chiriaș, versiune, trace_id,% afectat, †. motiv.
Ce trebuie să faceți acum: primii 1-3 pași + un link către runbook/butoane (Re-route, Rollback, Pause Promo).
Următoarea comunicare: în N minute, proprietar (IC/on-call).
7) Canale de livrare
Chat/messenger: canalul principal de triaj (cărți de bot cu butoane).
Pager/voice/SMS: pentru P1.
Mail: rapoarte și non-urgente (P3/Info).
Webhooks: integrare cu ticketing/orchestratori.
Pagina de stare: notificarea externă a clienților și partenerilor.
8) Integrări și butoane de acțiune
Incident bot: creează un card, atribuie un IC, deschide un pod video, pornește cronometre.
Руны (auto-acțiuni): Re-rută, Rollback, Limita de ridicare, Memorie cache la culoare, Dezactivați cărțile Web, Activați modul de siguranță.
Drepturi: Lansarea runelor se limitează la roluri; toate acțiunile sunt semnate și înregistrate.
9) Multi-regiune și multi-chiriaș
SLO independente/praguri pe regiuni; incidentele locale nu „pictează” întreaga lume.
Filtre de vizibilitate: partenerii/chiriașii își văd doar ai lor.
Cerințe jurisdicționale: texte de notificare, limbi, fusuri orare.
10) Politici, programe, ferestre de liniște
Politica de alertă: proprietari, praguri, canale, escaladări, șabloane.
Calendare: program de lucru/nelucrător, ferestre de lansare/marketing.
Schimbarea înghețării: Relaxarea pragurilor sau suprimarea „non-P1” în timpul stocurilor mari.
11) Audit și fixare legală
Chitanțe: pentru alerte critice - 'chitanță _ hash' și semnătură DSSE.
Jurnalele WORM: stocare neschimbabilă a evenimentelor și reacțiilor (cine a confirmat ceea ce au făcut).
Lanțul de custodie: escaladări și decizii.
12) Sistemul de notificare Metrics și SLO
MTTA (confirmă): P1 ≤ 5-10 min; P2 ≤ 30 min.
Rata paginii/Sarcina la apel: semnale pe schimbare - în intervalul țintă.
Fals pozitiv%: ≤ pragului țintă (de obicei <10-15%).
Eficiența corelației: proporția semnalelor grupate ≥ de 80%.
Livrare SLO: chat ≥ 99. 9%, SMS/voce ≥ 99. 5%.
Timp-la-acțiune: p95 pentru a rula rune de alertă.
13) Tablouri de bord și rapoarte
Operațional: incidente active, rata de ardere, harta regiunii/chiriașilor, coada de alertă.
Calitate alertă: zgomot, FP, retestări de prag, zone silențioase.
Încărcare de gardă: frecvență de paginare, timp de răspuns, „în afara orelor”.
Post-incident: eficiența runelor, provoacă recurență.
14) Specificitatea iGaming/fintech
Plăți/PSP: P1 - eșecul furnizorului, creșterea defecțiunilor de autorizare; auto-traseu la PSP de rezervă.
RTP & Limite: Alerte la deriva RTP observată, peste limite, modele de câștig suspecte.
Affiliates/webhooks: lag de livrare, creștere dublă, scădere a încasărilor confirmate.
Preț/FX/Tax: vitrina↔checkout neconcordanță, din versiunile artefact de sincronizare.
Jocul responsabil: declanșează RG și escaladarea lor în timp util în sprijin/conformitate.
15) RACI
16) Lista de verificare a implementării
- Definirea North-Star și SLI/SLO; asociat alerte cu burn-rate.
- Introduceți directorul de politici: praguri, canale, escaladări, ferestre de liniște.
- Implementați blocaj, corelații, histerezis, suprimarea furtunii.
- Configurați reguli de vizibilitate multi-regiune și multi-chiriaș.
- Conectați „butoane de acțiune” și runbooks; Restricţionaţi drepturile de lansare.
- Activați WORM/Bill, trace_id Trace și Runtime Audit.
- Construiți tablouri de bord de calitate (zgomot, FP, MTTA, rata de pagină).
- Провести GameDay: pană PSP, WebhookLag, PriceMismatch, RTP Drift.
- Revizuirea periodică a pragurilor; Praguri A/B pe valori „proaste”.
- Raport de încărcare și îmbunătățire la cerere lunar.
17) Playbooks (referință)
PSP Outage (P1): auto-traseu pentru a rezerva, reducerea timeout-uri client, carantină „gri” tranzacții, actualizare de stare în 15 minute.
WebhookLag (P2): creșterea lucrătorilor/lot, prioritizarea cozii, pauza de timp a punctelor finale opționale.
PriceMismatch (P1/P2): cache force disability, 'fx _ version/tax _ rule _ version' reconciliere, artefact rollback, compensații.
RTP Drift (P2): pauză bonus/promo, audit de profil, extensie fereastră de monitorizare.
Securitate: SoD/MFA eșuează (P1/P2): blocarea operațiunii, reverificarea JIT, criminalistică și legală, dacă este necesar.
18) ÎNTREBĂRI FRECVENTE
Cum de a reduce fals pozitive?
Reguli orientate spre SLO, corelații, histerezis, ferestre de formare și revizuiri regulate ale pragurilor.
Ce este mai important - acoperire sau precizie?
Pentru P1 - precizie și viteză (de preferință mai mică, dar critică). Pentru P3 - tendință și acoperirea costurilor.
Am nevoie de o pagină telefonică?
Da, pentru P1; chat-ul nu poate fi disponibil sau „liniștit”.
Cum să nu „ardeți” comanda de gardă?
Limitele ratei paginii, redistribuirea încărcării, urmărirea soarelui, recenzii lunare de zgomot.
Rezumat: Sistemul de notificare și alertă este o conductă controlată de la semnal la acțiune. Construiește-l pe SLO, amortizează zgomotul, traseul cu contextul, dă butoane de acțiune și repară totul legal. În acest fel reduceți MTTA, eliminați încărcătura de la apel și creșteți reziliența afacerii chiar și cu vârfuri ascuțite și eșecuri ale furnizorului.