Əməliyyat analitikası
1) Əməliyyat analitikası nədir və niyə lazımdır
Əməliyyat analitikası (Ops Analytics) - müşahidə (metrika/logi/treys), ITSM (insidentlər/problemlər/dəyişikliklər), CI/CD (relizlər/konfiqlər), provayderlərdən (PSP/KYC/CDN/Cloud), FinOps (xərclər) və biznes SLI (ödənişlərin müvəffəqiyyəti, qeydiyyat), qərar qəbul etmək üçün vahid vitrinlər və daşbordlara çevrilmişdir.
Məqsədlər:- MTTD/MTTR erkən aşkar və düzgün səbəb atributu ilə azaltmaq;
- SLO və büdcə səhvləri nəzarət altında saxlamaq;
- dəyişikliklər → impakt (relizlər/konfiqlər → SLI/SLO/şikayətlər/xərclər);
- komandalara və menecmentə self-servis analitikası vermək.
2) Mənbələr və kanonik məlumat təbəqəsi
Telemetriya: metriklər (SLI/resurslar), loqlar (sampling/redaksiya PII), treyslər (trace_id/span_id, buraxılış etiketləri).
ITSM/Incident modulları: SEV, T0/Detected/Ack/Declared/Mitigated/Recovered vaxt tamponları, RCA/CAPA.
CI/CD & Config: versiyalar, kommitlər, kanarika/mavi-yaşıl, bayraq state, hədəf konfiqlər.
Provayderlər: statuslar/SLA, gecikmələr, səhv kodları, marşrutların çəkiləri.
FinOps: etiketlər/hesablar/tenantlar üzrə qiymət, $/vahid (1k operası.) .
DataOps: vitrin təravəti, DQ səhvləri, lineage.
Əsas prinsip - identifikatorlar vasitəsilə vahid korrelyasiya: 'service', 'region', 'tenant', 'release _ id', 'change _ id', 'incident _ id', 'provider', 'trace _ id'.
3) Vahid data modeli (sadələşdirilmiş çərçivə)
dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code config infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency error status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)
4) SLI/SLO və biznes metrik
Бизнес-SLI: `payment_success_ratio`, `signup_completion`, `deposit_latency`.
Тех-SLI: `availability`, `http_p95`, `error_rate`, `queue_depth`.
SLO təbəqəsi: + burn-rate (qısa/uzun pəncərə) hədəfləri, pozuntuların avtomatik izahları.
Normallaşma: 1k uğurlu əməliyyatlar/istifadəçilər/trafik göstəriciləri.
5) Korrelyasiya və səbəblər atributu
Relizlər/Konfiqlər, SLI/SLO: qraflarda şərhlər; səbəb-nəticə hesabatları (dəyişikliklər ilə bağlı insidentlərin payı; MTTR change-insidentlər).
Biznes-SLI provayderləri: marşrutların çəkiləri vs latency/səhvlər, SLO qaçırmalarına hər bir provayderin töhfəsi.
Tutum/resurs gecikmələr: hovuzların həddindən artıq istiləşməsi → p95 böyüməsi → dönüşüm təsiri.
6) Anomaliyalar və proqnozlaşdırma
Anomaliya-detekt: mövsümlük + üzlük astanaları + change-axtarış fişləri (buraxılışdan əvvəl/sonra).
Proqnoz: həftəlik/mövsümi yük nümunələri, burn-out büdcə səhv proqnozu, xərclər prediksiyası ($/vahid) .
Gardrails: yalnız mənbələrin kvorumunda (synthetic + RUM + business-SLI) alertlər.
7) Vitrinlər və daşbordlar (istinad)
1. Executive 28d: SEV-mix, MTTR/MTTD media, SLO adherence, $/vahid, top səbəbləri.
2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable %, Change Failure Rate.
3. Change Impact: Releases/Configes, SLI/SLO/şikayətlər, geri qaytarmalar və onların təsiri.
4. Providers: PSP/KYC/CDN status line, biznes SLI təsir, cavab vaxt.
5. FinOps: cost per 1k txn, log/egress, xərc anomaliyaları, tövsiyələr (sampling, saxlama).
6. DataOps: vitrin təravəti, DQ səhvləri, SLA payplayns, backfill-uğur.
8) Data keyfiyyəti və governance
Hadisə müqavilələri: hadisələr/buraxılışlar/SLI üçün aydın sxemlər (məcburi sahələr, vahid vaxt zonaları).
DQ çekləri: dolğunluq, açarların unikallığı, zamanın ardıcıllığı (t0 ≤ detected ≤ ack...).
Linedge: Daşborddan mənbəyə (traceable).
PII/sirləri: redaktə/siyasət maskası; evidence üçün WORM.
SLA təravət: vitrinlər Ops ≤ 5 dəq gecikmə.
9) Əməliyyat analitikasının yetkinlik metrikası
Coverage: vitrinlərdə və SLO bordlarında kritik xidmətlərin% -i (hədəf ≥ 95%).
Freshness: təravətli widget payı ≤ 5 min (hədəf ≥ 95%).
Actionability: Dashborddan hərəkətə keçidlərin% -i (playbook/SOP/bilet) ≥ 90%.
Detection Coverage: ≥ hadisələrin 85% avtomatlaşdırma tərəfindən aşkar edilir.
Attribution Rate: təsdiqlənmiş səbəb və tetikleyici ilə insidentlərin payı ≥ 90%.
Change Impact Share: Dəyişikliklərlə əlaqəli hadisələrin payı (tendensiyaya nəzarət).
Data Quality: DQ səhvləri/həftə → ↓ QoQ.
10) Proses: məlumatlardan hərəkətlərə
1. Yığma → təmizləmə → normallaşdırma → vitrin (ETL/ELT, ML üçün feature qat).
2. Aşkarlama/proqnoz → matris eskalasiyası (IC/P1/P2/Comms).
3. Fəaliyyət: playbook/SOP, release-gate, ficha-bayraq, provayder keçid.
4. Evidence və AAR/RCA: time line, qrafiklər, relizlərə/loglərə/treyslərə bağlantılar.
5. CAPA və məhsul həlləri: burn-dəqiqə və $ -impakt prioritetləşdirilməsi.
11) Sorğu nümunələri (ideya)
11. 1 Buraxılışların SLO-ya təsiri (24h)
sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;
11. 2 Regionlar üzrə provayderlərdən problemlərin payı
sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;
11. 3 Cost per 1k uğurlu ödənişlər
sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;
12) Artefakt şablonları
12. 1 Hadisə hadisəsinin sxemi (JSON, fraqment)
json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}
12. 2 Metrik kataloq (YAML, fraqment)
yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false
12. 3 Executive hesabat kartı (bölmələr)
1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines
13) Alətlər və memarlıq nümunələri
Data Lake + DWH: telemetriya üçün «xam» təbəqə, həllər üçün vitrinlər.
Stream-prosessing: near-real-time SLI/burn-rate, anomaliyalar üçün onlayn ficks.
Feature Store: phich təkrar istifadə (kanarica, mövsümi, provayder siqnalları).
Semantic Layer/Metric Store: vahid metrik təriflər (SLO, MTTR...).
Access Control: RBAC/ABAC, tenant/regionlar üçün row-level security.
Catalog/Lineage: axtarış, təsviri, asılılıq, sahibləri.
14) Çek vərəqləri
14. 1 Əməliyyat analitikasının başlaması
- SLI/SLO lüğətləri, SEV, səbəbləri, dəyişmə növləri təsdiq edilmişdir.
- Hadisə sxemləri və vahid vaxt zonaları.
- Telemetriya konnektorları, ITSM, CI/CD, provayderlər, billing.
- Vitrinlər: SLI/SLO, Incidents, Changes, Providers, FinOps.
- Executive/SRE/Change/Providers dashboard mövcuddur.
- Quorum-alerts və suppression xidmət pəncərələrinə uyğunlaşdırılmışdır.
14. 2 Həftəlik Ops Baxış-icmal
- SEV trendləri, MTTR/MTTD, SLO səhvləri, burn-dəqiqə.
- Change Impact və CFR, geri qaytarma statusu.
- Provayder hadisələr və reaksiya vaxt.
- FinOps: $/vahid, giriş anomaliyaları/egress.
- CAPA statusu, gecikmələr, prioritetlər.
15) Anti-nümunələr
«Qrafik divarı» hərəkətə keçmədən.
Komandaların müxtəlif metrik tərifləri (semantik təbəqə yoxdur).
Relizlərin/pəncərələrin izahlarının olmaması səbəblərin zəif atributudur.
p95/p99 əvəzinə orta istiqamət.
Həcmdə normallaşma yoxdur - böyük xidmətlər «daha pis görünür».
Log/vitrinlərdə PII, retansiyanın pozulması.
Verilənlər «dayanır» (real-time widget üçün> 5-10 dəqiqə).
16) Yol xəritəsi (4-8 həftə)
1. Ned. 1: metrik lüğət, hadisə sxemləri, id-korrelyasiya üzrə razılaşmalar; SLI/SLO və ITSM qoşulma.
2. Ned. 2: Incidents/Changes/Providers vitrinləri, buraxılış qeydləri; Executive & SRE dashboard.
3. Ned. 3: FinOps qat ($/vahid) , SLI ilə əlaqə; kvorum ilə detal anomaliya.
4. Ned. 4: self-service (semantic layer/metric store), kataloq və lineage.
5. Ned. 5-6: yük/xərclər proqnozu, provayderlərə hesabatlar, CAPA vitrin.
6. Ned. 7-8: əhatə ≥ 95% Tier-0/1, SLA təravət ≤ 5 min, müntəzəm Ops-reviews.
17) Yekun
Əməliyyat analitikası bir qərar vermə maşınıdır: metriklərin vahid tərifləri, təzə vitrinlər, səbəblərin düzgün atributu və playbuklara və SOP-ə birbaşa keçidlər. Belə bir sistemdə komanda tez bir zamanda sapmaları aşkar edir və izah edir, buraxılışların və provayderlərin təsirini dəqiq qiymətləndirir, xərcləri idarə edir və riskləri sistematik olaraq azaldır - və istifadəçilər sabit xidmət əldə edirlər.