Valori incidente
1) De ce măsoară incidentele
Valorile incidentelor transformă evenimentele haotice într-un proces ușor de gestionat: ajută la reducerea timpilor de răspuns și recuperare, reduc recurența cauzelor, dovedesc îndeplinirea SLO/contractului și găsesc puncte de automatizare. Un set bun de valori acoperă întregul ciclu: detectarea clasificarea escaladarea atenuarea acțiunilor recuperarea parsării CAPA .
2) Definiții și formule de bază
Intervale de evenimente
MTTD (Timpul mediu de detectat) = timpul mediu de la T0 (debutul real al influenței) la primul semnal/detectare.
MTTA (Timpul mediu pentru recunoaștere) = timpul mediu de la primul semnal la ack la apel.
MTTM (Timpul mediu pentru atenuare) = timpul mediu de reducere a efectului sub pragul SLO (adesea = timpul până la soluționarea UX/degradare).
MTTR (Timpul mediu de recuperare) = timpul mediu de recuperare completă a SLI-urilor țintă.
MTBF (Timpul mediu între eșecuri) = intervalul mediu între incidentele relevante.
Timpi de funcționare
Timp de declarare - de la T0 până la anunțarea oficială a nivelului SUV/incident.
Timpul până la Comms - de la anunț la prima actualizare SLA publică/internă.
Timp în stare - durata în fiecare etapă (triaj/diag/fix/verifica).
Frecvență și fracționare
Numărul de incidente - numărul de incidente pe perioadă.
Rata de incidență - la 1k/10k/100k tranzacții de succes sau cereri (normalizare).
SEV Mix - distribuție după severitate (SEV-0... SUV-3).
SLA Breach Count/Rate - numărul/cota de încălcări ale SLA externe.
Modificarea ratei de eșec -% din incidentele cauzate de modificări (versiuni/configurații/migrații).
Calitatea semnalelor și proceselor
% Actionable Pages - proporția de pagini care au condus la acțiuni semnificative playbook.
Rata fals pozitivă (pagini) - proporția de fals pozitive.
Acoperire de detectie - proportia incidentelor detectate prin automatizare (nu clienti/suport).
Rata de redeschidere - proporția incidentelor repetate cu aceeași cauză rădăcină ≤90 zile.
Finalizarea CAPA -% din acțiunile corective/preventive închise la timp.
Comms SLA Aderence - proporția de actualizări publicate de frecvența necesară.
3) Harta metrică după stadiul incidentului
4) Normalizarea și segmentarea
Normalizați contoarele la volum (trafic, succes, utilizatori activi).
Segment după: regiune/chiriaș, furnizor (PSP/KYC/CDN), tip de schimbare (cod/config/infra), ora zilei (zi/noapte), sursă de detectare (sintetică/RUM/infra/suport).
SLI-urile de afaceri (succesul plăților, înregistrărilor, reaprovizionării) sunt importante pentru măsurătorile incidentelor legate de afaceri de degradarea acestora.
5) Obiective prag (repere, adaptare la domeniu)
MTTD: ≤ 5 min pentru Tier-0, ≤ 10-15 min pentru Tier-1.
MTTA: ≤ 5 min (24/7), ≤ 10 min (după soare).
MTTM: ≤ 15 min (Tier-0), ≤ 30-60 min (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 h (Tier-1).
Acoperire de detectare: ≥ 85% automatizare.
% Pagini actionabile: ≥ 80-90%; Pagini FP: ≤ 5%.
Rata de redeschidere (90д): ≤ 5-10%.
Finalizarea CAPA (la timp): ≥ 85%.
6) Atribuirea cauzelor și impactul modificărilor
Atribuiți o cauză principală (Cod/Config/Infra/Provider/Securitate/Date/Capacitate) și declanșați (ID de eliberare, schimbare de configurare, migrare, factor extern) fiecărui incident.
Păstrați MTTR/Count legat de schimbare - cât de multe versiuni și configurații contribuie (baza pentru politicile de poartă/canar).
Separat, luați în considerare incidentele cauzate de Furnizor (PSP/KYC/CDN/Cloud) pentru a gestiona rutele și contractele.
7) Comunicații și Impactul asupra clienților
Timp pentru prima actualizare publică și actualizare cadență (de exemplu, la fiecare 15/30 minute).
Rata plângerii - bilete/reclamații despre 1 incident, tendință.
Acuratețea stării - cota de actualizări publice fără retracții.
Post-Incident NPS (de client cheie) - un scurt impuls după SEV-1/0.
8) Alertarea măsurătorilor calității în jurul incidentelor
Page Storm Index - numărul de pagini/oră pe apel în timpul unui incident (mediană/p95).
Dedup Eficiență - proporția de duplicate suprimate.
Rata de confirmare a cvorumului - proporția incidentelor în care a fost declanșat cvorumul sondelor (≥2 surse independente).
conversia Shadow→Canary→Prod a noilor reguli (Alert-as-Code).
9) Tablouri de bord (set minim)
1. Executive (28 de zile): numărul de incidente, distribuția SEV, MTTR/MTTM, pauze SLA, redeschidere, CAPA.
2. Operațiuni SRE: MTTD/MTTA по часам/сменам, Page Storm, Actionable%, Acoperire de detectare, Timp de declarare/Comms.
3. Impactul schimbării: ponderea incidentelor de lansare/configurare, MTTR pentru incidente de schimbare, ferestre de întreținere vs incidente.
4. Furnizori: incidente de către furnizor, timp de degradare, întrerupătoare de rută, SLA contractuale.
5. Heatmap pe Service/Regiune: Incidente și MTTR pe tranzacții 1k.
Combinaţi grafica SLI/SLO cu adnotările de lansare şi marcajele SEV.
10) Diagrama datelor incidente (recomandat)
Câmpuri minime carte/tabel:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Exemple de calcul (idee SQL)
MTTR în timp (mediană):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Acoperire de detectare:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Modificarea ratei de eșec (în 28 zile):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) Link către bugetele SLO și de eroare
Înregistrare SLO arde minute pe incident - aceasta este principala „greutate” a evenimentului.
Prioritizați CAPA prin arderea totală și greutatea SUV, mai degrabă decât numărul de incidente.
Stitch împreună o arsură cu impact financiar (exemplu: $/minut de downtime sau $/tranzacție pierdută).
13) Metrica la nivel de program
Timp de plumb postmortem: mediană de la închiderea incidentului la publicarea raportului.
Dovezi Completitudinea: cota de rapoarte cu cronologie, diagrame SLI, jurnale, link-uri către PR/comms.
Alert Hygiene Score: indice compozit prin actionable/FP/dedup/cvorum.
Defecte de predare: proporția de schimburi în care se pierde contextul incidentelor active.
Acoperire de formare:% la apel simulat în trimestrul.
14) Lista de verificare a implementării măsurătorilor
- Sunt definite marcajele de timp uniforme (UTC) și contractul de evenimente incidente.
- SEV, cauza rădăcină taxonomie și surse de detectare adoptate.
- Metrics sunt normalizate la volum (trafic/succes).
- Gata 3 tablouri de bord: Executive, Operations, Change Impact.
- Alert-as-Code: Fiecare regulă pagină are un playbook și un proprietar.
- SLA post-mortem (de ex. proiect de ≤72ch, sclav ≤5 final. zile).
- CAPAs sunt urmărite cu efect KPIs și D + 14/D + 30 date.
- Săptămânal Incident Review: Tendințe, Motive de top, Statutul CAPA.
15) Anti-modele
Luați în considerare numai MTTR fără MTTD/MTTA/MTTM → pierderea controlabilității fazelor timpurii.
Nu pentru a normaliza în volum → servicii mari „par” mai rău.
SEV nesistematic → incidente disparate.
Lipsa de dovezi → controverse în loc de îmbunătățiri.
Se concentreze pe numărul de incidente în loc de arde/impact SLO.
Ignorați Redeschiderea și CAPA → recidive eterne.
Valori în Excel fără încărcare automată de la Telemetry/ITSM.
16) Mini șabloane
Cardul Incident (abbr.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Raport executiv (28 zile, linii cheie)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Foaie de parcurs (4-6 săptămâni)
1. Ned. 1-Timestamp/field standard, dicționar SEV/motiv vitrina incident de bază.
2. Ned. 2: Calculele MTTD/MTTA/MTTM/MTTR, normalizarea și tabloul de bord SEV.
3. Ned. 3: pachet cu versiuni/configurații, acoperire de detectare și igienă de alertă.
4. Ned. 4: raport executiv, SLA post-mortem, CAPA tracker.
5. Ned. 5-6: rapoartele furnizorilor, modelul financiar burn→$, obiectivele trimestriale și revizuirea trimestrială a incidentelor.
18) Linia de jos
Valorile incidentelor nu sunt doar numere, ci un storyboard de fiabilitate operațională. Când măsurați întregul flux (de la detectare la CAPA), normalizați valorile, asociați-le cu SLO-uri și modificări și revizuiți în mod regulat, organizația reduce în mod previzibil timpul de răspuns, costul și frecvența incidentelor - iar utilizatorii văd un serviciu stabil.