Hadisələrin metrikası

1) Niyə hadisələri ölçmək

Hadisələrin metrikası xaotik hadisələri idarə olunan bir prosesə çevirir: reaksiya və bərpa vaxtını azaltmağa, səbəblərin təkrarlanmasını azaltmağa, SLO/müqavilələrin yerinə yetirilməsini sübut etməyə və avtomatlaşdırma nöqtələrini tapmağa kömək edir. Yaxşı metrik dəsti bütün dövrü əhatə edir: aşkar → təsnifat → eskalasiya → mitiging → bərpa → təhlil → CAPA.

2) Əsas təriflər və düsturlar

Hadisə intervalları

MTTD (Mean Time To Detect) = T0-dan (effektin faktiki başlanğıcı) ilk siqnal/aşkarlanmasına qədər orta vaxt.
MTTA (Mean Time To Acknowledge) = ilk siqnaldan ack on-call-a qədər orta vaxt.
MTTM (Mean Time To Mitigate) = SLO həddindən aşağı təsirin azalmasına qədər orta vaxt (tez-tez = UX həll/deqradasiyaya qədər vaxt).
MTTR (Mean Time To Recover) = Hədəf SLI-nin tam bərpasına qədər orta vaxt.
MTBF (Mean Time Between Failures) = müvafiq hadisələr arasında orta interval.

Əməliyyat vaxtları

Time to Declare - T0-dan SEV/hadisə səviyyəsinin rəsmi elanına qədər.
Time to Comms - elandan SLA-nın ilk ictimai/daxili yeniləməsinə qədər.
Time in State - hər mərhələdə uzunluq (triage/diag/fix/verify).

Tezlik və paylaşım

Incident Count - bir dövr üçün hadisələrin sayı.
Incident Rate - 1k/10k/100k uğurlu əməliyyatlar və ya sorğular (normallaşma).
SEV Mix - ağırlıq bölgüsü (SEV-0... SEV-3).
SLA Breach Count/Rate - xarici SLA pozuntularının sayı/payı.
Change Failure Rate - dəyişikliklər nəticəsində baş verən hadisələrin% -i (relizlər/konfiqlər/miqrasiyalar).

Siqnalların və proseslərin keyfiyyəti

% Actionable Pages - playbook üçün mənalı hərəkətlərə səbəb olan peyceklərin payıdır.
False Positive Rate (Pages) - saxta əməllərin payı.
Detection Coverage - avtomatika (müştərilər/dəstək deyil) tərəfindən aşkar edilən hadisələrin payı.
Reopen Rate - 90 gün ≤ eyni kök səbəbi ilə təkrar hadisələrin payı.
CAPA Completion - vaxtında bağlanmış% düzəliş/xəbərdarlıq hərəkətləri.
Comms SLA Adherence - tələb olunan tezlikdə nəşr olunan yeniləmələrin payı.

3) Hadisə mərhələləri üzrə metrik xəritə

Mərhələ	Açar metriklər	Sual
Aşkarlama	MTTD, Detection Coverage, Source Mix (monitoring vs users)	Problemi nə qədər tez və kim aşkar edir?
Reaksiya	MTTA, Time to Declare, Page-to-Ack %, Escalation Latency	Komanda SEV-i nə qədər tez səfərbər edir?
Mitiqasiya	MTTM, Workaround Success %, Change Freeze Latency	Təsiri təhlükəsiz səviyyəyə nə qədər tez düşür?
Bərpa	MTTR, SLO Burn Stopped Time, Residual Risk Window	Xidmət nə vaxt tam normala qayıtdı?
Komms	Time to Comms, Comms SLA Adherence, Sentiment/Complaints	Nə qədər keyfiyyətli və vaxtında əlaqə saxlayırıq?
Təhsil	Postmortem Lead Time, CAPA Completion/Overdue, Reopen Rate	Biz öyrənirik və təkmilləşdirmə menteşəsini bağlayırıq?

4) Normallaşdırma və seqmentləşdirmə

Həcm sayğaclarını normallaşdırın (trafik, uğurlu əməliyyatlar, aktiv istifadəçilər).
Bölgə/tenant, provayder (PSP/KYC/CDN), dəyişiklik növü (kod/ /infra), günün vaxtı (day/night), deteksiya mənbəyi (synthetic/RUM/infra/support).
Biznes üçün biznes SLI (ödənişlərin, qeydiyyatların, doldurmaların müvəffəqiyyəti) vacibdir - hadisələrin ölçüsünü onların deqradasiyasına bağlayın.

5) Eşik hədəfləri (istinad, domen adaptasiyası)

MTTD: ≤ üçün Tier-0 5 dəq, Tier-1 üçün ≤ 10-15 dəq.
MTTA: ≤ 5 dəq (24/7), ≤ 10 dəq (follow-the-sun).
MTTM: ≤ 15 dəq (Tier-0), ≤ 30-60 dəq (Tier-1).
MTTR: ≤ 60 dəq (Tier-0), ≤ 4 saat (Tier-1).
Detection Coverage: ≥ 85% avtomatlaşdırma.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (vaxtında): ≥ 85%.

6) Səbəblərin atributu və dəyişikliklərin təsiri

Hər bir hadisəyə primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) və trigger (release ID, -dəyişiklik, miqrasiya, xarici faktor) təyin edin.
Change-linked MTTR/Count tutun - relizlər və konfigrantlar nə qədər töhfə verirlər (geyt/kanarya siyasətləri üçün baza).
Ayrıca marşrutları və müqavilələri idarə etmək üçün Provider-caused hadisələri (PSP/KYC/CDN/Cloud) nəzərə alın.

7) Rabitə və müştəri impaktı

Time to First Public Update və Update Cadence (məsələn, hər 15/30 dəq).
Complaint Rate - 1 hadisəyə dair biletlər/şikayətlər, trend.
Status Accuracy - retraksiyasız ictimai yeniləmələrin payı.
Post-Incident NPS (əsas müştərilər üçün) - SEV-1/0 sonra qısa impuls.

8) Hadisələrin ətrafında alertinq keyfiyyətinin metrikası

Page Storm Index - hadisə zamanı bir on-call (median/p95) üçün peycey/saat sayı.
Dedup Efficiency - sıxışdırılmış dublikatların payı.
Quorum Confirmation Rate - zondların kvorumunun işlədiyi hadisələrin nisbəti (≥ 2 müstəqil mənbə).
Shadow → Canary → Prod yeni qaydaların çevirilməsi (Alert-as-Code).

9) Daşbordlar (minimum dəsti)

1. Executive (28 gün): hadisələrin sayı, SEV-paylanması, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Relizlər/konfiqurasiya ilə əlaqəli hadisələrin payı, change hadisələri üçün MTTR, xidmət pəncərələri və s hadisələr.
4. Providers: provayder hadisələri, deqradasiya vaxtı, marşrut keçid, müqavilə SLA.
5. Xidmətlər/regionlar üzrə Heatmap: 1k əməliyyatlarda hadisələr və MTTR.

SLI/SLO qrafiklərini reliz açıqlamaları və SEV işarələri ilə birləşdirin.

10) Hadisə məlumat sxemi (tövsiyə olunur)

Minimum kart/cədvəl sahələri:


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Hesablama nümunələri (SQL-ideya)

Dövr üçün MTTR (mediana):

sql
SELECT PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');

Detection Coverage:

sql
SELECT 100. 0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Change Failure Rate (28 gün ərzində):

sql
SELECT 100. 0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO və səhv büdcələri ilə əlaqə

Hadisə haqqında SLO burn minutes qeyd - Bu hadisənin əsas «çəki».
Hadisələrin sayına deyil, ümumi burn və SEV çəkisinə görə CAPA-ya üstünlük verin.
Burn-u maliyyə impaktı ilə tikin (məsələn: $/dəqiqə fasilə və ya $/itirilmiş əməliyyat).

13) Yetkinlik prosesinin metrikası (program-level)

Postmortem Lead Time: hadisənin bağlanmasından hesabatın dərc edilməsinə qədər median.
Evidence Completeness: Taymline, SLI qrafikləri, log, PR/coms linkləri ilə hesabatların payı.
Alert Hygiene Score: actionable/FP/dedup/kvorum üçün kompozit indeks.
Handover Defects: aktiv hadisələrin kontekstinin itirildiyi növbələrin payı.
Training Coverage:% on-call, rüb simulyasiya keçdi.

14) Metriklərin tətbiqi üçün çek siyahısı

Vahid vaxt işarələri (UTC) və hadisə hadisələrinin müqaviləsi müəyyən edilmişdir.
SEV lüğəti, səbəbləri (root cause taxonomy) və deteksiya mənbələri qəbul edilmişdir.
Metriklər həcmdə normallaşır (trafik/uğurlu əməliyyatlar).
3 dashboard hazırdır: Executive, Operations, Change Impact.
Alert-as-Code: Hər Page qaydaları playbook və sahibi var.
Post-mortem SLA (məsələn, layihə ≤ 72h, final ≤ 5 qul. gün).
CAPA KPI effekti və D + 14/D + 30 tarixləri ilə izlənir.
Həftəlik Incident Review: trendlər, ən yaxşı səbəblər, CAPA statusu.

15) Anti-nümunələr

MTTD/MTTA/MTTM olmadan yalnız MTTR hesab → erkən mərhələləri idarə itkisi.
→ Böyük xidmətlər daha pis görünür.
Qeyri-sistemli SEV → hadisələrin müqayisə olunmazlığı.
Evidence yox → təkmilləşdirmələr əvəzinə mübahisələr.
Burn/SLO təsiri əvəzinə hadisələrin sayına diqqət yetirin.
Reopen və CAPA → əbədi residivlərə məhəl qoymayın.
Telemetriyadan/ITSM-dən avtomatik boşaldılmadan «Excel-də metriklər».

16) Mini şablonlar

Hadisə kartı


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3. 6% to SLO, burn = 18 min)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive hesabatı (28 gün, açar sətirlər)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 min; Median MTTD: 4 min; MTTA: 3 min; MTTM: 17 min
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3. 2%
Change Failure Rate: 33% (4/12) - 3 related to config
Reopen(90d): 1/12 (8. 3%); CAPA Completion: 82% (2 overdue)
Top Root Causes: provider(4), config(3), capacity(2)

17) Yol xəritəsi (4-6 həftə)

1. Ned. 1: zaman/sahə işarələri standartı, SEV lüğəti/səbəblər; hadisələrin əsas vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesablamalar, normallaşdırma və SEV-daşbord.
3. Ned. 3: Relizlər/konfiqurasiyalar, Detection Coverage və Alert Hygiene ilə əlaqə.
4. Ned. 4: Executive hesabat, SLA post-mortem, CAPA tracker.
5. Ned. 5-6: provayder hesabatları, finmodel burn → $, rüblük hədəflər və rüblük Incident Review.

18) Yekun

Hadisələrin metrikası sadəcə rəqəmlər deyil, əməliyyat etibarlılığının ekran görüntüsüdür. Bütün axını (aşkarlamadan CAPA-ya qədər) ölçdüyünüzdə, göstəriciləri normallaşdırdığınızda, onları SLO və dəyişikliklərlə əlaqələndirdiyinizdə və mütəmadi olaraq araşdırmalar apardığınızda, təşkilat reaksiya vaxtını, xərcləri və hadisələrin təkrarlanmasını azaldır - və istifadəçilər sabit xidmət görürlər.

Hadisələrin metrikası

Əməliyyat vaxtları

Tezlik və paylaşım

Siqnalların və proseslərin keyfiyyəti

Executive hesabatı (28 gün, açar sətirlər)

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq