GH GambleHub

Hadysalaryň ölçegleri

1) Näme üçin hadysalary ölçemeli?

Wakalaryň metrikleri bulam-bujar hadysalary dolandyrylýan prosese öwürýär: reaksiýa we dikeldiş wagtyny azaltmaga, sebäpleriň gaýtalanmagyny azaltmaga, SLO/şertnamalaryň ýerine ýetirilişini subut etmäge we awtomatlaşdyryş nokatlaryny tapmaga kömek edýär. Metrleriň gowy toplumy tutuş aýlawy öz içine alýar: tapmak → klassifikasiýa → eskalasiýa → mitigasiýa → dikeldiş → derňew → CAPA.


2) Esasy kesgitlemeler we formulalar

Waka aralyklary

MTTD (Mean Time To Detect) = T0-dan (täsiriň hakyky başlangyjy) ilkinji signal/tapyşa çenli ortaça wagt.
MTTA (Mean Time To Acknowledge) = ilkinji signaldan ack on-call-a çenli ortaça wagt.
MTTM (Mean Time To Mitigate) = SLO bosagasynyň aşagyndaky täsiriň azalmagyna çenli ortaça wagt (köplenç = UX-iň aýlanyp geçmek/zaýalanmagyna çenli wagt).
MTTR (Mean Time To Recover) = Maksatly SLI-leriň doly dikeldilmegine çenli ortaça wagt.
MTBF (Mean Time Between Failures) = degişli hadysalaryň arasyndaky ortaça aralyk.

Amal wagty

Time to Declare - T0-dan SEV/hadysanyň resmi taýdan yglan edilmegine çenli.
Time to Comms - yglan etmekden başlap, SLA boýunça ilkinji köpçülige/içerki täzelenmä çenli.
Wagt in State - her tapgyryň dowamlylygy (triage/diag/fix/verify).

Ýygylyk we paýlar

Incident Count - döwür üçin hadysalaryň sany.
Incident Rate - 1k/10k/100k üstünlikli amallara ýa-da haýyşlara (kadalaşma).
SEV Mix - agyrlyk paýlanyşy (SEV-0... SEV-3).
SLA Breach Count/Rate - daşarky SLA bozulmalarynyň sany/paýy.
Change Failure Rate - üýtgeşmeler sebäpli ýüze çykan hadysalaryň% -i (relizler/konfigikler/göçmeler).

Signallaryň we prosesleriň hili

% Actionable Pages - pleýbukda manyly hereketlere sebäp bolan habarçylaryň paýy.
False Positive Rate (Pages) - ýalan täsirleriň paýy.
Detection Coverage - awtomatika (müşderiler/goldaw däl) tarapyndan ýüze çykarylan hadysalaryň paýy.
Reopen Rate - şol bir esasy sebäp bilen gaýtalanýan hadysalaryň paýy ≤ 90 gün.
CAPA Completion - wagtynda ýapylan düzediş/duýduryş hereketleriniň%.
Comms SLA Adherence - talap edilýän ýygylyk boýunça çap edilen täzelenmeleriň paýy.


3) Wakanyň tapgyrlary boýunça metrikleriň kartasy

BasgançakEsasy metriklerSorag
TapmakMTTD, Detection Coverage, Source Mix (monitoring vs users)Meseläni näçe çalt we kim kesgitleýär?
ReaksiýaMTTA, Time to Declare, Page-to-Ack %, Escalation LatencyTopar näçe çalt mobilizlenýär we SEV-i alýar?
MitigirlemeMTTM, Workaround Success %, Change Freeze LatencyTäsir howpsuz derejä çenli näçe çalt azalýar?
DikeldişMTTR, SLO Burn Stopped Time, Residual Risk WindowHyzmat haçan doly kadaly ýagdaýa geldi?
CommsTime to Comms, Comms SLA Adherence, Sentiment/ComplaintsNäçeräk hil we wagtynda aragatnaşyk saklaýarys?
OkuwPostmortem Lead Time, CAPA Completion/Overdue, Reopen RateBiz öwrenýärismi we gowulaşmalar aýlawyny ýapýarysmy?

4) Kadalaşdyrmak we bölmek

Hasaplaýjylary göwrümde kadalaşdyryň (traffik, üstünlikli amallar, işjeň ulanyjylar).
Bölmek: sebit/tenant, üpjün ediji (PSP/KYC/CDN), üýtgemek görnüşi (kod/ /infra), günüň wagty (day/night), deteksiýa çeşmesi (synthetic/RUM/infra/support).
Işewürlik üçin biznes-SLI (tölegleriň, hasaba alnyşlaryň, doldurmalaryň üstünligi) möhümdir - hadysalaryň ölçeglerini olaryň zaýalanmagy bilen baglanyşdyryň.


5) Bosagadaky maksatlar (görkezmeler, domene uýgunlaşyň)

MTTD: ≤ üçin Tier-0 5 minut, Tier-1 üçin ≤ 10-15 minut.
MTTA: ≤ 5 min (24/7), ≤ 10 min (follow-the-sun).
MTTM: ≤ 15 minut (Tier-0), ≤ 30-60 minut (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 sagat (Tier-1).
Detection Coverage: 85% awtomatika ≥.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (wagtynda): ≥ 85%.


6) Sebäpleriň atributy we üýtgeşmeleriň täsiri

Her bir waka primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) we trigger (release ID, -üýtgeşme, migrasiýa, daşarky faktor) beriň.
Change-linked MTTR/Count - relizleriň we gapma-garşylyklaryň näderejede goşant goşýandygyny ýörediň (geýt/kanareýa syýasatlarynyň bazasy).
Marşrutlary we şertnamalary dolandyrmak üçin Provider-caused hadysalaryny (PSP/KYC/CDN/Cloud) aýratyn göz öňünde tutuň.


7) Aragatnaşyk we müşderi impaktı

"Time to First Public Update" we "Update Cadence" (mysal üçin, her 15/30 minutda).
Complaint Rate - 1 waka, tendensiýa barada biletler/şikaýatlar.
Status Accuracy - retraksiýasyz köpçüligiň täzelenmeleriniň paýy.
Post-Incident NPS (esasy müşderiler boýunça) - SEV-1/0 soň gysga itergi.


8) Wakalaryň töwereginde alerting hiliniň metrikleri

Page Storm Index - waka wagtynda bir on-call (median/p95) üçin jaň sagadynyň sany.
Dedup Efficiency - basylan dublikatlaryň paýy.
Quorum Confirmation Rate - zond kworumynyň işleýän hadysalarynyň paýy (garaşsyz çeşmeleriň 2-sinden ≥).
Shadow → Canary → Prod täze düzgünleriň üýtgemegi (Alert-as-Code).


9) Daşbordlar (iň az toplum)

1. Executive (28 gün): hadysalaryň sany, SEV-paýlanyş, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Relizler/konfigurasiýalar bilen baglanyşykly hadysalaryň paýy, change hadysalary üçin MTTR, hyzmat penjiresi vs hadysalar.
4. Providers: üpjün edijiler boýunça hadysalar, zaýalanma wagty, marşrutlary üýtgetmek, şertnamalaýyn SLA.
5. Hyzmatlar/sebitler boýunça Heatmap: 1k geleşik üçin hadysalar we MTTR.

SLI/SLO grafiklerini relizleriň düşündirişleri we SEV bellikleri bilen birleşdiriň.


10) Wakanyň maglumat shemasy (maslahat berilýär)

Kartoçkanyň/tablisanyň iň az meýdany:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Hasaplamalaryň mysallary (SQL-ideýa)

Döwür üçin MTTR (median):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 gün):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO we ýalňyşlyklaryň býudjetleri bilen baglanyşyk

Waka üçin SLO burn minutes belläň - bu wakanyň esasy "agramy".
Wakalaryň sany boýunça däl-de, umumy burn we SEV agramy boýunça CAPA-ny ileri tutuň.
Maliýe täsiri bilen burn tikiň (mysal: $/minutlyk iş wagty ýa-da $/ýitirilen amal).


13) Prosesiň kämillik ölçegleri (program-level)

Postmortem Lead Time: hadysanyň ýapylmagyndan hasabatyň çap edilmegine çenli mediana.
"Evidence Completeness": Taýmlain, SLI grafikleri, bloglar, PR/coms baglanyşyklary bolan hasabatlaryň paýy.
Alert Hygiene Score: actionable/FP/dedup/kworum boýunça komponent indeksi.
Handover Defects: işjeň hadysalaryň kontekstini ýitiren çalşyklaryň paýy.
Training Coverage:% on-call, çärýekde simulýasiýa edilen.


14) Metrikleri girizmegiň çek-sanawy

  • Wakanyň wakalarynyň ýeke-täk wagt bellikleri (UTC) we şertnamasy kesgitlenildi.
  • SEV sözlügi, sebäpleri (root cause taxonomy) we jikme-jiklik çeşmeleri kabul edildi.
  • Metrikler göwrümde kadalaşýar (traffik/üstünlikli amallar).
  • 3 dashbord taýýar: Executive, Operations, Change Impact.
  • Alert-as-Code: Her Page düzgüniniň pleýbugy we eýesi bar.
  • Post-mortem SLA (mysal üçin, taslama ≤ 72h, final ≤ 5 gul. gün).
  • CAPA effektiň KPI we D14/D30 seneleri bilen yzarlanýar.
  • Hepdelik Incident Review: tendensiýalar, esasy sebäpler, CAPA ýagdaýy.

15) Anti-patternler

Diňe MTTR-i MTTD/MTTA/MTTM → irki fazalaryň dolandyrylyşyny ýitirmezden hasaplaň.
Göwrümi boýunça kadalaşmazlyk → uly hyzmatlar "erbet görünýär".
Ulgamsyz SEV → hadysalaryň deňeşdirilmezligi.
"Evidence" -iň ýoklugy → gowulaşmagyň ýerine jedeller.
Burn/SLO täsiriniň ýerine hadysalaryň sanyna üns beriň.
Reopen we CAPA → baky gaýtalanmalary äsgermezlik ediň.
Telemetriýadan/ITSM-den awtomatiki düşürilmezden "Excel-de metrikler".


16) Kiçi şablonlar

Waka kartoçkasy (sokr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive hasabaty (28 günüň dowamynda, esasy setirler)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Ýol kartasy (4-6 hepde)

1. Ned. 1: Wagt/meýdan bellikleriniň standarty, SEV sözlügi/sebäpler; wakalaryň esasy penjiresi.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hasaplamalary, kadalaşma we SEV-daşbord.
3. Ned. 3: Relizler/konfigurasiýalar, Detection Coverage we Alert Hygiene bilen baglanyşyk.
4. Ned. 4: Executive-hasabat, SLA post-mortems, CAPA-tracker.
5. Ned. 5-6: üpjün ediji hasabatlary, burn → $ maliýe modeli, çärýekleýin maksatlar we çärýekleýin Incident Review.


18) Jemleýji

Wakalaryň metrikleri diňe bir sanlar däl, eýsem operasiýa ygtybarlylygynyň sahnasy. Tutuş akymyňyzy ölçäniňizde (tapyşdan CAPA-a çenli), görkezijileri kadalaşdyryň, SLO we üýtgeşmeler bilen baglanyşdyryň we yzygiderli gözden geçiriň, gurama reaksiýa wagtyny, çykdajylaryny we hadysalaryň gaýtalanmagyny azaldar we ulanyjylar durnukly hyzmaty görýärler.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.