Amal analitikasy
1) Operasiýa seljermesi näme we näme üçin zerur?
Operasiýa analitikasy (Ops Analytics) - syn edilişinden (metrika/logi/söwda), ITSM (hadysalar/meseleler/üýtgeşmeler), CI/CD (neşirler/konfigikler), üpjün edijilerden (PSP/KYC/CDN/Cloud), FinOps (çykdajylar) we karar bermek üçin ýeke-täk vitrinlere we daşbordlara öwrülen biznes-SLI (tölegleriň, hasaba alynmagyň üstünligi).
Maksatlar:- sebäpleri ir ýüze çykarmak we dogry atributlamak arkaly MTTD/MTTR azaltmak;
- SLO-ny we ýalňyşlyklaryň býudjetini gözegçilik astynda saklamak;
- üýtgeşmeleri baglanyşdyrmak → impakt (relizler/konfighi → SLI/SLO/şikaýatlar/çykdajylar);
- toparlara we dolandyryşa self-service analitikasyny bermek.
2) Maglumatlar çeşmeleri we kanoniki gatlagy
Telemetriýa: metrikler (SLI/çeşmeler), loglar (sempling/redaksiýa PII), treýslar (trace_id/span_id, goýberiş bellikleri).
ITSM/Incident modullary: SEV, timstamps T0/Detected/Ack/Declared/Mitigated/Recovered, RCA/CAPA.
CI/CD & Config: wersiýalar, kommitler, kanarika/gök-ýaşyl, baýdak state, nyşana alnan gaplar.
Üpjün edijiler: statuslar/SLA, gijikdirmeler, ýalňyşlyk kodlary, marşrutlaryň agramy.
FinOps: taglar/hasaplar/tenantlar boýunça bahasy, $/birlik (1k operasy) .
DataOps: penjireleriň täzeligi, DQ ýalňyşlyklary, lineage.
Esasy ýörelge: 'service', 'region', 'tenant', 'release _ id', 'change _ id', 'incident _ id', 'provider', 'trace _ id'.
3) Maglumatlaryň ýeke-täk modeli (ýönekeýleşdirilen çarçuwa)
dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code config infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency error status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)
4) SLI/SLO we iş metrikleri
Бизнес-SLI: `payment_success_ratio`, `signup_completion`, `deposit_latency`.
Тех-SLI: `availability`, `http_p95`, `error_rate`, `queue_depth`.
SLO-gatlak: maksatlar + burn-rate (gysga/uzyn penjire), düzgün bozmalaryň awtomatiki düşündirişleri.
Kadalaşma: 1k üstünlikli amallaryň/ulanyjylaryň/traffigiň görkezijileri.
5) Korrelýasiýa we sebäpleriň atributiýasy
Relizler/konfigiler, SLI/SLO: grafalardaky düşündirişler; sebäp-netije hasabatlary (üýtgeşmeler bilen baglanyşykly hadysalaryň paýy; MTTR change-hadysalar).
Business-SLI üpjün edijileri: marşrutlaryň agramy vs latency/ýalňyşlyklar, SLO-nyň ýalňyşlyklaryna her bir üpjün edijiniň goşandy.
Kuwwat/çeşmeler, gijikdirmeler: howuzlaryň aşa gyzmagy → ösüş p95 → öwrülişige täsiri.
6) Anomaliýalar we çaklamalar
Anomaliýa-detekt: möwsümlilik + percentil bosagalar + change-gözleg fiçalary (goýberilmezinden öň/soň).
Çaklama: hepdelik/möwsümleýin nagyşlar, ýalňyşlyklar býudjetiniň burn-out çaklamasy, çykdajylaryň çaklamasy ($/birlik) .
Gardreýller: alertler diňe çeşmeleriň kworumynda (synthetic + RUM + business-SLI).
7) Vitrinler we daşbordlar (salgylanmalar)
1. Executive 28d: SEV-mix, MTTR/MTTD, SLO adherence, $/birlik, esasy sebäpler.
2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable %, Change Failure Rate.
3. Change Impact: Relizler/konfigi SLI/SLO/şikaýatlar, yza çekişler we olaryň täsiri.
4. Providers: PSP/KYC/CDN status liniýalary, iş SLI täsirleri, jogap wagty.
5. FinOps: cost per 1k txn, logi/egress, çykdajy anomaliýalary, teklipler (sempling, saklamak).
6. DataOps: penjireleriň täzeligi, DQ ýalňyşlyklary, SLA paýlaýjylary, arka tarapy üstünlik.
8) Maglumatlaryň hili we dolandyryşy
Wakalaryň şertnamalary: hadysalar/goýberişler/SLI üçin anyk shemalar (hökmany meýdançalar, bitewi wagt zolaklary).
DQ-çekerler: açarlaryň dolulygy, özboluşlylygy, tegelegiň yzygiderliligi (t0 ≤ detected ≤ ack...).
Çyzgy: Daşborddan çeşmä çenli (traceable).
PII/syrlar: syýasat boýunça redaktirlemek/gizlemek; WORM for evidence.
Täzelik SLA: Ops vitrinleri ≤ 5 minut gijikdirme.
9) Operasiýa seljermesiniň kämillik ölçegleri
Coverage: vitrinlerde we SLO-bordlarda möhüm hyzmatlaryň% -i (maksat ≥ 95%).
Freshness: täzelik widjetleriniň paýy ≤ 5 min (maksat ≥ 95%).
Actionability:% dashboard geçişleri (playbook/SOP/bilet) ≥ 90%.
Detection Coverage: ≥ 85% -i awtomatika tarapyndan ýüze çykarylýar.
Attribution Rate: tassyklanan sebäp we trigger bilen hadysalaryň paýy ≥ 90%.
Change Impact Share: üýtgeşmeler bilen baglanyşykly hadysalaryň paýy (tendensiýany dolandyrýarys).
Data Quality: DQ-ýalňyşlyklar/hepde → ↓ QoQ.
10) Amal: maglumatlardan hereketlere
1. Ýygnamak → arassalamak → kadalaşmak → vitrin (ETL/ELT, ML üçin feature-gatlak).
2. Tapmak/çaklamak → matrisa boýunça eskalasiýa (IC/P1/P2/Comms).
3. Hereket: pleýbuk/SOP, goýberiş derwezesi, ficha baýdagy, üpjün edijini üýtgetmek.
4. "Evidence" we "AAR/RCA": wagt aralygy, grafikler, neşirlere/ýazgylara/söwdalara baglanyşyklar.
5. CAPA we önüm çözgütleri: burn-minutlar we $-impakt boýunça ileri tutulýan ugurlar.
11) Haýyşlaryň mysallary (ideýa)
11. 1 Relizleriň SLO-a täsiri (24s)
sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;
11. 2 Sebitler boýunça üpjün edijilerden gelýän kynçylyklaryň paýy
sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;
11. 3 Cost per 1k üstünlikli tölegler
sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;
12) Artefaktlaryň şablonlary
12. 1 Wakanyň diagrammasy (JSON, bölek)
json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}
12. 2 Metrik katalog (YAML, bölek)
yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false
12. 3 Executive hasabat kartoçkasy (bölümler)
1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines
13) Gurallar we binagärlik patternleri
Data Lake + DWH: telemetriýa üçin "çig" gatlak, çözgütler üçin penjireler.
Akym-prosessing: near-real-time SLI/burn-rate, anomaliýalar üçin onlaýn çyzgylar.
Feature Store: täzeden ulanmak (kanarika, möwsümlilik, üpjün ediji-signallar).
Semantic Layer/Metric Store: Metrikleriň birmeňzeş kesgitlemeleri (SLO, MTTR...).
Access Control: RBAC/ABAC, tenantlar/sebitler üçin row-level security.
Catalog/Lineage: gözleg, düşündirişler, garaşlylyk, eýeler.
14) Çek-listler
14. 1 Operasiýa analitikasyny başlamak
- SLI/SLO, SEV sözlükleri, sebäpleri, üýtgeýän görnüşleri tassyklandy.
- Wakalaryň shemalary we ýekeje wagt zolaklary.
- Telemetriýa, ITSM, CI/CD konnektorlary, üpjün edijiler, billing.
- Penjireler: SLI/SLO, Incidents, Changes, Providers, FinOps.
- Executive/SRE/Change/Providers dashbordlary bar.
- Kworum-alertler we suppression hyzmat penjirelerine sazlandy.
14. 2 Hepdelik Ops-syn
- SEV-trendler, MTTR/MTTD, SLO ýalňyşlyklary, burn-minutlar.
- Change Impact we CFR, gaýdyp geliş ýagdaýy.
- Üpjün ediji hadysalary we reaksiýa döwürleri.
- FinOps: $/bir. log/egress anomaliýalary.
- CAPA statusy, gijikdirmeler, ileri tutulýan ugurlar.
15) Anti-patternler
Hereket etmezden "Grafikler diwary".
Toparlaryň dürli ölçegleri bar (semantik gatlak ýok).
Relizleriň/penjireleriň düşündirişleriniň ýoklugy sebäpleriň gowşak atributiýasydyr.
p95/p99 ýerine ortaça ugrukdyrylýar.
Göwrümiň kadalaşmagy ýok - uly hyzmatlar "erbet görünýär".
Sahypalarda/penjirelerde PII, retensiýalaryň bozulmagy.
Maglumatlar "durgunlaşýar" (hakyky wagt widjetleri üçin> 5-10 minut).
16) Durmuşa geçirmegiň ýol kartasy (4-8 hepde)
1. Ned. 1: metrikleriň sözlügi, wakalaryň shemalary, id-korrelýasiýa boýunça ylalaşyklar; SLI/SLO we ITSM birikdirmek.
2. Ned. 2: "Incidents/Changes/Providers" penjireleri, neşirleriň düşündirişleri; Executive & SRE dashboard.
3. Ned. 3: FinOps gatlak ($/birlik) , SLI bilen baglanyşyk; kworum bilen anomaliýa-detekt.
4. Ned. 4: self-service (semantic layer/metric store), katalog we lineage.
5. Ned. 5-6: ýüküň/çykdajylaryň çaklamasy, üpjün edijilere hasabat, CAPA-vitrin.
6. Ned. 7-8: 95% ≥ Tier-0/1, SLA täzelik ≤ 5 min, yzygiderli Ops-synlar.
17) Jemleýji
Operasiýa seljermesi karar kabul etmegiň maşynydyr: metrikleri birmeňzeş kesgitlemek, täze vitrinler, sebäpleriň dogry atributy we pleýbuklara we SOP-e göni geçişler. Şeýle ulgamda topar gyşarmalary çalt ýüze çykarýar we düşündirýär, relizleriň we üpjün edijileriň täsirine takyk baha berýär, çykdajylary dolandyrýar we töwekgelçiligi yzygiderli peseldýär - ulanyjylar durnukly hyzmat alýarlar.