GH GambleHub

Hadisələrin metrikası

1) Niyə hadisələri ölçmək

Hadisələrin metrikası xaotik hadisələri idarə olunan bir prosesə çevirir: reaksiya və bərpa vaxtını azaltmağa, səbəblərin təkrarlanmasını azaltmağa, SLO/müqavilələrin yerinə yetirilməsini sübut etməyə və avtomatlaşdırma nöqtələrini tapmağa kömək edir. Yaxşı metrik dəsti bütün dövrü əhatə edir: aşkar → təsnifat → eskalasiya → mitiging → bərpa → təhlil → CAPA.


2) Əsas təriflər və düsturlar

Hadisə intervalları

MTTD (Mean Time To Detect) = T0-dan (effektin faktiki başlanğıcı) ilk siqnal/aşkarlanmasına qədər orta vaxt.
MTTA (Mean Time To Acknowledge) = ilk siqnaldan ack on-call-a qədər orta vaxt.
MTTM (Mean Time To Mitigate) = SLO həddindən aşağı təsirin azalmasına qədər orta vaxt (tez-tez = UX həll/deqradasiyaya qədər vaxt).
MTTR (Mean Time To Recover) = Hədəf SLI-nin tam bərpasına qədər orta vaxt.
MTBF (Mean Time Between Failures) = müvafiq hadisələr arasında orta interval.

Əməliyyat dövrləri

Time to Declare - T0-dan SEV/hadisə səviyyəsinin rəsmi elanına qədər.
Time to Comms - elandan SLA-nın ilk ictimai/daxili yeniləməsinə qədər.
Time in State - hər mərhələdə uzunluq (triage/diag/fix/verify).

Tezlik və paylaşım

Incident Count - bir dövr üçün hadisələrin sayı.
Incident Rate - 1k/10k/100k uğurlu əməliyyatlar və ya sorğular (normallaşma).
SEV Mix - ağırlıq bölgüsü (SEV-0... SEV-3).
SLA Breach Count/Rate - xarici SLA pozuntularının sayı/payı.
Change Failure Rate - dəyişikliklər nəticəsində baş verən hadisələrin% -i (relizlər/konfiqlər/miqrasiyalar).

Siqnalların və proseslərin keyfiyyəti

% Actionable Pages - playbook üçün mənalı hərəkətlərə səbəb olan peyceklərin payıdır.
False Positive Rate (Pages) - saxta əməllərin payı.
Detection Coverage - avtomatika (müştərilər/dəstək deyil) tərəfindən aşkar edilən hadisələrin payı.
Reopen Rate - 90 gün ≤ eyni kök səbəbi ilə təkrar hadisələrin payı.
CAPA Completion - vaxtında bağlanmış% düzəliş/xəbərdarlıq hərəkətləri.
Comms SLA Adherence - tələb olunan tezlikdə nəşr olunan yeniləmələrin payı.


3) Hadisə mərhələləri üzrə metrik xəritə

MərhələAçar metriklərSual
AşkarlamaMTTD, Detection Coverage, Source Mix (monitoring vs users)Problemi nə qədər tez və kim aşkar edir?
ReaksiyaMTTA, Time to Declare, Page-to-Ack %, Escalation LatencyKomanda SEV-i nə qədər tez səfərbər edir?
MitiqasiyaMTTM, Workaround Success %, Change Freeze LatencyTəsiri təhlükəsiz səviyyəyə nə qədər tez düşür?
BərpaMTTR, SLO Burn Stopped Time, Residual Risk WindowXidmət nə vaxt tam normala qayıtdı?
KommsTime to Comms, Comms SLA Adherence, Sentiment/ComplaintsNə qədər keyfiyyətli və vaxtında əlaqə saxlayırıq?
TəhsilPostmortem Lead Time, CAPA Completion/Overdue, Reopen RateBiz öyrənirik və təkmilləşdirmə menteşəsini bağlayırıq?

4) Normallaşdırma və seqmentləşdirmə

Həcm sayğaclarını normallaşdırın (trafik, uğurlu əməliyyatlar, aktiv istifadəçilər).
Bölgə/tenant, provayder (PSP/KYC/CDN), dəyişiklik növü (kod/ /infra), günün vaxtı (day/night), deteksiya mənbəyi (synthetic/RUM/infra/support).
Biznes üçün biznes SLI (ödənişlərin, qeydiyyatların, doldurmaların müvəffəqiyyəti) vacibdir - hadisələrin ölçüsünü onların deqradasiyasına bağlayın.


5) Eşik hədəfləri (istinad, domen adaptasiyası)

MTTD: ≤ üçün Tier-0 5 dəq, Tier-1 üçün ≤ 10-15 dəq.
MTTA: ≤ 5 dəq (24/7), ≤ 10 dəq (follow-the-sun).
MTTM: ≤ 15 dəq (Tier-0), ≤ 30-60 dəq (Tier-1).
MTTR: ≤ 60 dəq (Tier-0), ≤ 4 saat (Tier-1).
Detection Coverage: ≥ 85% avtomatlaşdırma.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (vaxtında): ≥ 85%.


6) Səbəblərin atributu və dəyişikliklərin təsiri

Hər bir hadisəyə primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) və trigger (release ID, -dəyişiklik, miqrasiya, xarici faktor) təyin edin.
Change-linked MTTR/Count tutun - relizlər və konfigrantlar nə qədər töhfə verirlər (geyt/kanarya siyasətləri üçün baza).
Ayrıca marşrutları və müqavilələri idarə etmək üçün Provider-caused hadisələri (PSP/KYC/CDN/Cloud) nəzərə alın.


7) Rabitə və müştəri impaktı

Time to First Public Update və Update Cadence (məsələn, hər 15/30 dəq).
Complaint Rate - 1 hadisəyə dair biletlər/şikayətlər, trend.
Status Accuracy - retraksiyasız ictimai yeniləmələrin payı.
Post-Incident NPS (əsas müştərilər üçün) - SEV-1/0 sonra qısa impuls.


8) Hadisələrin ətrafında alertinq keyfiyyətinin metrikası

Page Storm Index - hadisə zamanı bir on-call (median/p95) üçün peycey/saat sayı.
Dedup Efficiency - sıxışdırılmış dublikatların payı.
Quorum Confirmation Rate - zondların kvorumunun işlədiyi hadisələrin nisbəti (≥ 2 müstəqil mənbə).
Shadow → Canary → Prod yeni qaydaların çevirilməsi (Alert-as-Code).


9) Daşbordlar (minimum dəsti)

1. Executive (28 gün): hadisələrin sayı, SEV-paylanması, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Relizlər/konfiqurasiya ilə əlaqəli hadisələrin payı, change hadisələri üçün MTTR, xidmət pəncərələri və s hadisələr.
4. Providers: provayder hadisələri, deqradasiya vaxtı, marşrut keçid, müqavilə SLA.
5. Xidmətlər/regionlar üzrə Heatmap: 1k əməliyyatlarda hadisələr və MTTR.

SLI/SLO qrafiklərini reliz açıqlamaları və SEV işarələri ilə birləşdirin.


10) Hadisə məlumat sxemi (tövsiyə olunur)

Minimum kart/cədvəl sahələri:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Hesablama nümunələri (SQL-ideya)

Dövr üçün MTTR (mediana):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 gün ərzində):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO və səhv büdcələri ilə əlaqə

Hadisə haqqında SLO burn minutes qeyd - Bu hadisənin əsas «çəki».
Hadisələrin sayına deyil, ümumi burn və SEV çəkisinə görə CAPA-ya üstünlük verin.
Burn-u maliyyə impaktı ilə tikin (məsələn: $/dəqiqə fasilə və ya $/itirilmiş əməliyyat).


13) Yetkinlik prosesinin metrikası (program-level)

Postmortem Lead Time: hadisənin bağlanmasından hesabatın dərc edilməsinə qədər median.
Evidence Completeness: Taymline, SLI qrafikləri, log, PR/coms linkləri ilə hesabatların payı.
Alert Hygiene Score: actionable/FP/dedup/kvorum üçün kompozit indeks.
Handover Defects: aktiv hadisələrin kontekstinin itirildiyi növbələrin payı.
Training Coverage:% on-call, rüb simulyasiya keçdi.


14) Metriklərin tətbiqi üçün çek siyahısı

  • Vahid vaxt işarələri (UTC) və hadisə hadisələrinin müqaviləsi müəyyən edilmişdir.
  • SEV lüğəti, səbəbləri (root cause taxonomy) və deteksiya mənbələri qəbul edilmişdir.
  • Metriklər həcmdə normallaşır (trafik/uğurlu əməliyyatlar).
  • 3 dashboard hazırdır: Executive, Operations, Change Impact.
  • Alert-as-Code: Hər Page qaydaları playbook və sahibi var.
  • Post-mortem SLA (məsələn, layihə ≤ 72h, final ≤ 5 qul. gün).
  • CAPA KPI effekti və D + 14/D + 30 tarixləri ilə izlənir.
  • Həftəlik Incident Review: trendlər, ən yaxşı səbəblər, CAPA statusu.

15) Anti-nümunələr

MTTD/MTTA/MTTM olmadan yalnız MTTR hesab → erkən mərhələləri idarə itkisi.
→ Böyük xidmətlər daha pis görünür.
Qeyri-sistemli SEV → hadisələrin müqayisə olunmazlığı.
Evidence yox → təkmilləşdirmələr əvəzinə mübahisələr.
Burn/SLO təsiri əvəzinə hadisələrin sayına diqqət yetirin.
Reopen və CAPA → əbədi residivlərə məhəl qoymayın.
Telemetriyadan/ITSM-dən avtomatik boşaldılmadan «Excel-də metriklər».


16) Mini şablonlar

Hadisə kartı


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive hesabatı (28 gün, əsas sətirlər)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Yol xəritəsi (4-6 həftə)

1. Ned. 1: zaman/sahə işarələri standartı, SEV lüğəti/səbəblər; hadisələrin əsas vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesablamalar, normallaşdırma və SEV-daşbord.
3. Ned. 3: Relizlər/konfiqurasiyalar, Detection Coverage və Alert Hygiene ilə əlaqə.
4. Ned. 4: Executive hesabat, SLA post-mortem, CAPA tracker.
5. Ned. 5-6: provayder hesabatları, finmodel burn → $, rüblük hədəflər və rüblük Incident Review.


18) Yekun

Hadisələrin metrikası sadəcə rəqəmlər deyil, əməliyyat etibarlılığının ekran görüntüsüdür. Bütün axını (aşkarlamadan CAPA-ya qədər) ölçdüyünüzdə, göstəriciləri normallaşdırdığınızda, onları SLO və dəyişikliklərlə əlaqələndirdiyinizdə və mütəmadi olaraq araşdırmalar apardığınızda, təşkilat reaksiya vaxtını, xərcləri və hadisələrin təkrarlanmasını azaldır - və istifadəçilər sabit xidmət görürlər.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.