Hadysalaryň ölçegleri
1) Näme üçin hadysalary ölçemeli?
Wakalaryň metrikleri bulam-bujar hadysalary dolandyrylýan prosese öwürýär: reaksiýa we dikeldiş wagtyny azaltmaga, sebäpleriň gaýtalanmagyny azaltmaga, SLO/şertnamalaryň ýerine ýetirilişini subut etmäge we awtomatlaşdyryş nokatlaryny tapmaga kömek edýär. Metrleriň gowy toplumy tutuş aýlawy öz içine alýar: tapmak → klassifikasiýa → eskalasiýa → mitigasiýa → dikeldiş → derňew → CAPA.
2) Esasy kesgitlemeler we formulalar
Waka aralyklary
MTTD (Mean Time To Detect) = T0-dan (täsiriň hakyky başlangyjy) ilkinji signal/tapyşa çenli ortaça wagt.
MTTA (Mean Time To Acknowledge) = ilkinji signaldan ack on-call-a çenli ortaça wagt.
MTTM (Mean Time To Mitigate) = SLO bosagasynyň aşagyndaky täsiriň azalmagyna çenli ortaça wagt (köplenç = UX-iň aýlanyp geçmek/zaýalanmagyna çenli wagt).
MTTR (Mean Time To Recover) = Maksatly SLI-leriň doly dikeldilmegine çenli ortaça wagt.
MTBF (Mean Time Between Failures) = degişli hadysalaryň arasyndaky ortaça aralyk.
Amal wagty
Time to Declare - T0-dan SEV/hadysanyň resmi taýdan yglan edilmegine çenli.
Time to Comms - yglan etmekden başlap, SLA boýunça ilkinji köpçülige/içerki täzelenmä çenli.
Wagt in State - her tapgyryň dowamlylygy (triage/diag/fix/verify).
Ýygylyk we paýlar
Incident Count - döwür üçin hadysalaryň sany.
Incident Rate - 1k/10k/100k üstünlikli amallara ýa-da haýyşlara (kadalaşma).
SEV Mix - agyrlyk paýlanyşy (SEV-0... SEV-3).
SLA Breach Count/Rate - daşarky SLA bozulmalarynyň sany/paýy.
Change Failure Rate - üýtgeşmeler sebäpli ýüze çykan hadysalaryň% -i (relizler/konfigikler/göçmeler).
Signallaryň we prosesleriň hili
% Actionable Pages - pleýbukda manyly hereketlere sebäp bolan habarçylaryň paýy.
False Positive Rate (Pages) - ýalan täsirleriň paýy.
Detection Coverage - awtomatika (müşderiler/goldaw däl) tarapyndan ýüze çykarylan hadysalaryň paýy.
Reopen Rate - şol bir esasy sebäp bilen gaýtalanýan hadysalaryň paýy ≤ 90 gün.
CAPA Completion - wagtynda ýapylan düzediş/duýduryş hereketleriniň%.
Comms SLA Adherence - talap edilýän ýygylyk boýunça çap edilen täzelenmeleriň paýy.
3) Wakanyň tapgyrlary boýunça metrikleriň kartasy
4) Kadalaşdyrmak we bölmek
Hasaplaýjylary göwrümde kadalaşdyryň (traffik, üstünlikli amallar, işjeň ulanyjylar).
Bölmek: sebit/tenant, üpjün ediji (PSP/KYC/CDN), üýtgemek görnüşi (kod/ /infra), günüň wagty (day/night), deteksiýa çeşmesi (synthetic/RUM/infra/support).
Işewürlik üçin biznes-SLI (tölegleriň, hasaba alnyşlaryň, doldurmalaryň üstünligi) möhümdir - hadysalaryň ölçeglerini olaryň zaýalanmagy bilen baglanyşdyryň.
5) Bosagadaky maksatlar (görkezmeler, domene uýgunlaşyň)
MTTD: ≤ üçin Tier-0 5 minut, Tier-1 üçin ≤ 10-15 minut.
MTTA: ≤ 5 min (24/7), ≤ 10 min (follow-the-sun).
MTTM: ≤ 15 minut (Tier-0), ≤ 30-60 minut (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 sagat (Tier-1).
Detection Coverage: 85% awtomatika ≥.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (wagtynda): ≥ 85%.
6) Sebäpleriň atributy we üýtgeşmeleriň täsiri
Her bir waka primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) we trigger (release ID, -üýtgeşme, migrasiýa, daşarky faktor) beriň.
Change-linked MTTR/Count - relizleriň we gapma-garşylyklaryň näderejede goşant goşýandygyny ýörediň (geýt/kanareýa syýasatlarynyň bazasy).
Marşrutlary we şertnamalary dolandyrmak üçin Provider-caused hadysalaryny (PSP/KYC/CDN/Cloud) aýratyn göz öňünde tutuň.
7) Aragatnaşyk we müşderi impaktı
"Time to First Public Update" we "Update Cadence" (mysal üçin, her 15/30 minutda).
Complaint Rate - 1 waka, tendensiýa barada biletler/şikaýatlar.
Status Accuracy - retraksiýasyz köpçüligiň täzelenmeleriniň paýy.
Post-Incident NPS (esasy müşderiler boýunça) - SEV-1/0 soň gysga itergi.
8) Wakalaryň töwereginde alerting hiliniň metrikleri
Page Storm Index - waka wagtynda bir on-call (median/p95) üçin jaň sagadynyň sany.
Dedup Efficiency - basylan dublikatlaryň paýy.
Quorum Confirmation Rate - zond kworumynyň işleýän hadysalarynyň paýy (garaşsyz çeşmeleriň 2-sinden ≥).
Shadow → Canary → Prod täze düzgünleriň üýtgemegi (Alert-as-Code).
9) Daşbordlar (iň az toplum)
1. Executive (28 gün): hadysalaryň sany, SEV-paýlanyş, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Relizler/konfigurasiýalar bilen baglanyşykly hadysalaryň paýy, change hadysalary üçin MTTR, hyzmat penjiresi vs hadysalar.
4. Providers: üpjün edijiler boýunça hadysalar, zaýalanma wagty, marşrutlary üýtgetmek, şertnamalaýyn SLA.
5. Hyzmatlar/sebitler boýunça Heatmap: 1k geleşik üçin hadysalar we MTTR.
SLI/SLO grafiklerini relizleriň düşündirişleri we SEV bellikleri bilen birleşdiriň.
10) Wakanyň maglumat shemasy (maslahat berilýär)
Kartoçkanyň/tablisanyň iň az meýdany:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Hasaplamalaryň mysallary (SQL-ideýa)
Döwür üçin MTTR (median):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 gün):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) SLO we ýalňyşlyklaryň býudjetleri bilen baglanyşyk
Waka üçin SLO burn minutes belläň - bu wakanyň esasy "agramy".
Wakalaryň sany boýunça däl-de, umumy burn we SEV agramy boýunça CAPA-ny ileri tutuň.
Maliýe täsiri bilen burn tikiň (mysal: $/minutlyk iş wagty ýa-da $/ýitirilen amal).
13) Prosesiň kämillik ölçegleri (program-level)
Postmortem Lead Time: hadysanyň ýapylmagyndan hasabatyň çap edilmegine çenli mediana.
"Evidence Completeness": Taýmlain, SLI grafikleri, bloglar, PR/coms baglanyşyklary bolan hasabatlaryň paýy.
Alert Hygiene Score: actionable/FP/dedup/kworum boýunça komponent indeksi.
Handover Defects: işjeň hadysalaryň kontekstini ýitiren çalşyklaryň paýy.
Training Coverage:% on-call, çärýekde simulýasiýa edilen.
14) Metrikleri girizmegiň çek-sanawy
- Wakanyň wakalarynyň ýeke-täk wagt bellikleri (UTC) we şertnamasy kesgitlenildi.
- SEV sözlügi, sebäpleri (root cause taxonomy) we jikme-jiklik çeşmeleri kabul edildi.
- Metrikler göwrümde kadalaşýar (traffik/üstünlikli amallar).
- 3 dashbord taýýar: Executive, Operations, Change Impact.
- Alert-as-Code: Her Page düzgüniniň pleýbugy we eýesi bar.
- Post-mortem SLA (mysal üçin, taslama ≤ 72h, final ≤ 5 gul. gün).
- CAPA effektiň KPI we D14/D30 seneleri bilen yzarlanýar.
- Hepdelik Incident Review: tendensiýalar, esasy sebäpler, CAPA ýagdaýy.
15) Anti-patternler
Diňe MTTR-i MTTD/MTTA/MTTM → irki fazalaryň dolandyrylyşyny ýitirmezden hasaplaň.
Göwrümi boýunça kadalaşmazlyk → uly hyzmatlar "erbet görünýär".
Ulgamsyz SEV → hadysalaryň deňeşdirilmezligi.
"Evidence" -iň ýoklugy → gowulaşmagyň ýerine jedeller.
Burn/SLO täsiriniň ýerine hadysalaryň sanyna üns beriň.
Reopen we CAPA → baky gaýtalanmalary äsgermezlik ediň.
Telemetriýadan/ITSM-den awtomatiki düşürilmezden "Excel-de metrikler".
16) Kiçi şablonlar
Waka kartoçkasy (sokr.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Executive hasabaty (28 günüň dowamynda, esasy setirler)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Ýol kartasy (4-6 hepde)
1. Ned. 1: Wagt/meýdan bellikleriniň standarty, SEV sözlügi/sebäpler; wakalaryň esasy penjiresi.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hasaplamalary, kadalaşma we SEV-daşbord.
3. Ned. 3: Relizler/konfigurasiýalar, Detection Coverage we Alert Hygiene bilen baglanyşyk.
4. Ned. 4: Executive-hasabat, SLA post-mortems, CAPA-tracker.
5. Ned. 5-6: üpjün ediji hasabatlary, burn → $ maliýe modeli, çärýekleýin maksatlar we çärýekleýin Incident Review.
18) Jemleýji
Wakalaryň metrikleri diňe bir sanlar däl, eýsem operasiýa ygtybarlylygynyň sahnasy. Tutuş akymyňyzy ölçäniňizde (tapyşdan CAPA-a çenli), görkezijileri kadalaşdyryň, SLO we üýtgeşmeler bilen baglanyşdyryň we yzygiderli gözden geçiriň, gurama reaksiýa wagtyny, çykdajylaryny we hadysalaryň gaýtalanmagyny azaldar we ulanyjylar durnukly hyzmaty görýärler.