Hadisələrin metrikası
1) Niyə hadisələri ölçmək
Hadisələrin metrikası xaotik hadisələri idarə olunan bir prosesə çevirir: reaksiya və bərpa vaxtını azaltmağa, səbəblərin təkrarlanmasını azaltmağa, SLO/müqavilələrin yerinə yetirilməsini sübut etməyə və avtomatlaşdırma nöqtələrini tapmağa kömək edir. Yaxşı metrik dəsti bütün dövrü əhatə edir: aşkar → təsnifat → eskalasiya → mitiging → bərpa → təhlil → CAPA.
2) Əsas təriflər və düsturlar
Hadisə intervalları
MTTD (Mean Time To Detect) = T0-dan (effektin faktiki başlanğıcı) ilk siqnal/aşkarlanmasına qədər orta vaxt.
MTTA (Mean Time To Acknowledge) = ilk siqnaldan ack on-call-a qədər orta vaxt.
MTTM (Mean Time To Mitigate) = SLO həddindən aşağı təsirin azalmasına qədər orta vaxt (tez-tez = UX həll/deqradasiyaya qədər vaxt).
MTTR (Mean Time To Recover) = Hədəf SLI-nin tam bərpasına qədər orta vaxt.
MTBF (Mean Time Between Failures) = müvafiq hadisələr arasında orta interval.
Əməliyyat dövrləri
Time to Declare - T0-dan SEV/hadisə səviyyəsinin rəsmi elanına qədər.
Time to Comms - elandan SLA-nın ilk ictimai/daxili yeniləməsinə qədər.
Time in State - hər mərhələdə uzunluq (triage/diag/fix/verify).
Tezlik və paylaşım
Incident Count - bir dövr üçün hadisələrin sayı.
Incident Rate - 1k/10k/100k uğurlu əməliyyatlar və ya sorğular (normallaşma).
SEV Mix - ağırlıq bölgüsü (SEV-0... SEV-3).
SLA Breach Count/Rate - xarici SLA pozuntularının sayı/payı.
Change Failure Rate - dəyişikliklər nəticəsində baş verən hadisələrin% -i (relizlər/konfiqlər/miqrasiyalar).
Siqnalların və proseslərin keyfiyyəti
% Actionable Pages - playbook üçün mənalı hərəkətlərə səbəb olan peyceklərin payıdır.
False Positive Rate (Pages) - saxta əməllərin payı.
Detection Coverage - avtomatika (müştərilər/dəstək deyil) tərəfindən aşkar edilən hadisələrin payı.
Reopen Rate - 90 gün ≤ eyni kök səbəbi ilə təkrar hadisələrin payı.
CAPA Completion - vaxtında bağlanmış% düzəliş/xəbərdarlıq hərəkətləri.
Comms SLA Adherence - tələb olunan tezlikdə nəşr olunan yeniləmələrin payı.
3) Hadisə mərhələləri üzrə metrik xəritə
4) Normallaşdırma və seqmentləşdirmə
Həcm sayğaclarını normallaşdırın (trafik, uğurlu əməliyyatlar, aktiv istifadəçilər).
Bölgə/tenant, provayder (PSP/KYC/CDN), dəyişiklik növü (kod/ /infra), günün vaxtı (day/night), deteksiya mənbəyi (synthetic/RUM/infra/support).
Biznes üçün biznes SLI (ödənişlərin, qeydiyyatların, doldurmaların müvəffəqiyyəti) vacibdir - hadisələrin ölçüsünü onların deqradasiyasına bağlayın.
5) Eşik hədəfləri (istinad, domen adaptasiyası)
MTTD: ≤ üçün Tier-0 5 dəq, Tier-1 üçün ≤ 10-15 dəq.
MTTA: ≤ 5 dəq (24/7), ≤ 10 dəq (follow-the-sun).
MTTM: ≤ 15 dəq (Tier-0), ≤ 30-60 dəq (Tier-1).
MTTR: ≤ 60 dəq (Tier-0), ≤ 4 saat (Tier-1).
Detection Coverage: ≥ 85% avtomatlaşdırma.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (vaxtında): ≥ 85%.
6) Səbəblərin atributu və dəyişikliklərin təsiri
Hər bir hadisəyə primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) və trigger (release ID, -dəyişiklik, miqrasiya, xarici faktor) təyin edin.
Change-linked MTTR/Count tutun - relizlər və konfigrantlar nə qədər töhfə verirlər (geyt/kanarya siyasətləri üçün baza).
Ayrıca marşrutları və müqavilələri idarə etmək üçün Provider-caused hadisələri (PSP/KYC/CDN/Cloud) nəzərə alın.
7) Rabitə və müştəri impaktı
Time to First Public Update və Update Cadence (məsələn, hər 15/30 dəq).
Complaint Rate - 1 hadisəyə dair biletlər/şikayətlər, trend.
Status Accuracy - retraksiyasız ictimai yeniləmələrin payı.
Post-Incident NPS (əsas müştərilər üçün) - SEV-1/0 sonra qısa impuls.
8) Hadisələrin ətrafında alertinq keyfiyyətinin metrikası
Page Storm Index - hadisə zamanı bir on-call (median/p95) üçün peycey/saat sayı.
Dedup Efficiency - sıxışdırılmış dublikatların payı.
Quorum Confirmation Rate - zondların kvorumunun işlədiyi hadisələrin nisbəti (≥ 2 müstəqil mənbə).
Shadow → Canary → Prod yeni qaydaların çevirilməsi (Alert-as-Code).
9) Daşbordlar (minimum dəsti)
1. Executive (28 gün): hadisələrin sayı, SEV-paylanması, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Relizlər/konfiqurasiya ilə əlaqəli hadisələrin payı, change hadisələri üçün MTTR, xidmət pəncərələri və s hadisələr.
4. Providers: provayder hadisələri, deqradasiya vaxtı, marşrut keçid, müqavilə SLA.
5. Xidmətlər/regionlar üzrə Heatmap: 1k əməliyyatlarda hadisələr və MTTR.
SLI/SLO qrafiklərini reliz açıqlamaları və SEV işarələri ilə birləşdirin.
10) Hadisə məlumat sxemi (tövsiyə olunur)
Minimum kart/cədvəl sahələri:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Hesablama nümunələri (SQL-ideya)
Dövr üçün MTTR (mediana):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 gün ərzində):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) SLO və səhv büdcələri ilə əlaqə
Hadisə haqqında SLO burn minutes qeyd - Bu hadisənin əsas «çəki».
Hadisələrin sayına deyil, ümumi burn və SEV çəkisinə görə CAPA-ya üstünlük verin.
Burn-u maliyyə impaktı ilə tikin (məsələn: $/dəqiqə fasilə və ya $/itirilmiş əməliyyat).
13) Yetkinlik prosesinin metrikası (program-level)
Postmortem Lead Time: hadisənin bağlanmasından hesabatın dərc edilməsinə qədər median.
Evidence Completeness: Taymline, SLI qrafikləri, log, PR/coms linkləri ilə hesabatların payı.
Alert Hygiene Score: actionable/FP/dedup/kvorum üçün kompozit indeks.
Handover Defects: aktiv hadisələrin kontekstinin itirildiyi növbələrin payı.
Training Coverage:% on-call, rüb simulyasiya keçdi.
14) Metriklərin tətbiqi üçün çek siyahısı
- Vahid vaxt işarələri (UTC) və hadisə hadisələrinin müqaviləsi müəyyən edilmişdir.
- SEV lüğəti, səbəbləri (root cause taxonomy) və deteksiya mənbələri qəbul edilmişdir.
- Metriklər həcmdə normallaşır (trafik/uğurlu əməliyyatlar).
- 3 dashboard hazırdır: Executive, Operations, Change Impact.
- Alert-as-Code: Hər Page qaydaları playbook və sahibi var.
- Post-mortem SLA (məsələn, layihə ≤ 72h, final ≤ 5 qul. gün).
- CAPA KPI effekti və D + 14/D + 30 tarixləri ilə izlənir.
- Həftəlik Incident Review: trendlər, ən yaxşı səbəblər, CAPA statusu.
15) Anti-nümunələr
MTTD/MTTA/MTTM olmadan yalnız MTTR hesab → erkən mərhələləri idarə itkisi.
→ Böyük xidmətlər daha pis görünür.
Qeyri-sistemli SEV → hadisələrin müqayisə olunmazlığı.
Evidence yox → təkmilləşdirmələr əvəzinə mübahisələr.
Burn/SLO təsiri əvəzinə hadisələrin sayına diqqət yetirin.
Reopen və CAPA → əbədi residivlərə məhəl qoymayın.
Telemetriyadan/ITSM-dən avtomatik boşaldılmadan «Excel-də metriklər».
16) Mini şablonlar
Hadisə kartı
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Executive hesabatı (28 gün, əsas sətirlər)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Yol xəritəsi (4-6 həftə)
1. Ned. 1: zaman/sahə işarələri standartı, SEV lüğəti/səbəblər; hadisələrin əsas vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesablamalar, normallaşdırma və SEV-daşbord.
3. Ned. 3: Relizlər/konfiqurasiyalar, Detection Coverage və Alert Hygiene ilə əlaqə.
4. Ned. 4: Executive hesabat, SLA post-mortem, CAPA tracker.
5. Ned. 5-6: provayder hesabatları, finmodel burn → $, rüblük hədəflər və rüblük Incident Review.
18) Yekun
Hadisələrin metrikası sadəcə rəqəmlər deyil, əməliyyat etibarlılığının ekran görüntüsüdür. Bütün axını (aşkarlamadan CAPA-ya qədər) ölçdüyünüzdə, göstəriciləri normallaşdırdığınızda, onları SLO və dəyişikliklərlə əlaqələndirdiyinizdə və mütəmadi olaraq araşdırmalar apardığınızda, təşkilat reaksiya vaxtını, xərcləri və hadisələrin təkrarlanmasını azaldır - və istifadəçilər sabit xidmət görürlər.