Операциялык аналитика
1) Операциялык аналитика деген эмне жана ал эмне үчүн керек
Операциялык аналитика (Ops Analytics) - бул байкоо (метрика/логи/соода), ITSM (инциденттер/көйгөйлөр/өзгөрүүлөр), CI/CD (релиздер/конфигалар), провайдерлер (PSP/KYC/CDN/Cloud), FinOps (чыгымдар) жана бизнес-SLI (төлөмдөрдүн ийгилиги, каттоо), чечим кабыл алуу үчүн бирдиктүү витриналарга жана дашбордддорго айланган.
Максаттары:- MTTD/MTTR себептерин эрте аныктоо жана туура атрибуция менен азайтуу;
- SLO жана бюджетти көзөмөлгө алуу;
- өзгөрүүлөрдү байланыштыруу → таасир (релиздер/конфиги → SLI/SLO/даттануулар/чыгымдар);
- self-service аналитиканы командаларга жана менеджментке берүү.
2) маалымат булактары жана канондук катмары
Телеметрия: метрика (SLI/ресурстар), логи (семплинг/редакция PII), трейси (trace_id/span_id, релиз теги).
ITSM/Incident модулдары: SEV, T0/Detected/Ack/Declared/Mitigated/Recovered, RCA/CAPA.
CI/CD & Config: версиялар, коммиттер, канарика/көк-жашыл, желек мамлекеттик, максаттуу конфигалар.
Провайдерлер: статустар/SLA, кечигүүлөр, ката коддору, каттамдардын салмагы.
FinOps: тегдер/эсептер/тенанттар боюнча наркы, $/бирдиги (1k опера.) .
DataOps: терезелердин сергектиги, DQ каталар, сызык.
Негизги принцип - идентификаторлор аркылуу бирдиктүү корреляция: 'service', 'region', 'tenant', 'release _ id', 'change _ id', 'incident _ id', 'provider', 'trace _ id'.
3) Бирдиктүү маалымат модели (жөнөкөйлөтүлгөн кадр)
dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code config infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency error status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)
4) SLI/SLO жана бизнес-метрика
Бизнес-SLI: `payment_success_ratio`, `signup_completion`, `deposit_latency`.
Тех-SLI: `availability`, `http_p95`, `error_rate`, `queue_depth`.
SLO катмары: максаттары + бурн-rate (кыска/узун терезе), автоматтык аннотация бузуулар.
нормалдаштыруу: 1k ийгиликтүү иш/колдонуучулар/трафик боюнча көрсөткүчтөр.
5) Корреляциялар жана себептердин атрибуциясы
Releases/конфиги, SLI/SLO: аннотациялар; себептик отчеттор (өзгөрүүлөргө байланыштуу инциденттердин үлүшү; MTTR өзгөрүү окуялар).
Бизнес-SLI провайдерлери: маршруттардын салмагы vs latency/каталар, ар бир провайдердин SLO каталарына кошкон салымы.
Сыйымдуулугу/ресурстары кечигүү: ашыкча ысык бассейндер → өсүш p95 → конверсия таасири.
6) Аномалиялар жана болжолдоо
Аномалия-Detect: сезондук + percentile босоголору + change-издөө чүчүкулак (чыгаруу алдында/кийин).
Прогноз: жумалык/сезондук жүктөө үлгүлөрү, бюджетти бурн-вне болжолдоо, чыгымдарды алдын ала эсептөө ($/бирдик) .
Гардрейлдер: булактардын кворумунда гана алерталар (synthetic + RUM + business-SLI).
7) Витриналар жана дашборддор (референс)
1. Executive 28d: SEV аралашмасы, MTTR/MTTD, SLO adherence, $/бирдиги, жогорку себептери.
2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable %, Change Failure Rate.
3. Change Impact: Releases/Comfigies, SLI/SLO/даттануулар, кайтарымдар жана алардын таасири.
4. Providers: PSP/KYC/CDN статусу линиясы, бизнес-SLI таасир, жооп убакыт.
5. FinOps: cost per 1k txn, логи/egress, чыгымдардын аномалиялары, сунуштар (семплинг, сактоо).
6. DataOps: витриналардын сергектиги, DQ каталары, SLA payplayns, backfill ийгилиги.
8) Маалымат сапаты жана governance
Иш-чаралардын келишимдери: инциденттер/релиздер/SLI үчүн так схемалар (милдеттүү талаалар, бирдиктүү убакыт алкактары).
DQ текшерүүчүлөр: толук, ачкычтардын уникалдуулугу, таймдын ырааттуулугу (t0 ≤ detected ≤ ack...).
Сызык: дашборддон булакка чейин (traceable).
PII/Secrets: саясат боюнча түзөтүү/жашыруу; evidence үчүн WORM.
SLA сергектик: дүкөндөр Ops ≤ 5 мүнөт кечигүү.
9) иш аналитика жетилгендик өлчөмдөрү
Coverage: витриналарда жана SLO-такталарда маанилүү кызматтардын% (максаты ≥ 95%).
Freshness: 5 мин ≤ сергектик менен widget үлүшү (максаты ≥ 95%).
Actionability:% иш-аракет үчүн дашборддон өтүү (playbook/SOP/билет) ≥ 90%.
Detection Coverage: ≥ 85% окуялар автоматтык аныктайт.
Attribution Rate: тастыкталган себеп жана триггер менен окуялар үлүшү ≥ 90%.
Change Impact Share: өзгөрүүлөргө байланыштуу инциденттердин үлүшү (тенденцияны көзөмөлдөйбүз).
Data Quality: DQ-каталар/жума → ↓ QoQ.
10) Процесс: маалыматтардан аракеттерге
1. Жыйноо → тазалоо → нормалдаштыруу → витриналар (ETL/ELT, ML үчүн feature катмары).
2. Аныктоо/болжолдоо → Matrix боюнча эскалация (IC/P1/P2/Comms).
3. Иш-аракет: playbook/SOP, релиз-Gates, Ficha-желек, жөнөтүүчү которуу.
4. Evidence жана AAR/RCA: таймлайн, графиктер, релиздерге/логиге/соодага шилтемелер.
5. CAPA жана азык-түлүк чечимдери: бурн-мүнөттө жана $ -импакт боюнча артыкчылыктуу.
11) өтүнүч мисалдар (идея)
11. 1 SLO чыгаруу таасири (24h)
sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;
11. 2 Региондор боюнча провайдерлерден көйгөйлөрдүн үлүшү
sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;
11. 3 Cost per 1k ийгиликтүү төлөмдөр
sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;
12) Артефакттардын үлгүлөрү
12. 1 Окуя схемасы (JSON, фрагмент)
json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}
12. 2 Метриканын каталогу (YAML, фрагмент)
yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false
12. 3 Executive отчет картасы (бөлүмдөрү)
1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines
13) Аспаптар жана архитектуралык үлгүлөр
Data Lake + DWH: Телеметрия үчүн "чийки" катмар, чечимдерди көрүү үчүн витриналар.
Stream-процессинг: near-real-time SLI/burn-rate, аномалиялар үчүн онлайн чүчүкулак.
Feature Store: кайра колдонуу fich (канарика, сезондук, провайдер сигналдары).
Semantic Layer/Metric Store: бирдиктүү метрикалык аныктамалар (SLO, MTTR...).
Access Control: RBAC/ABAC, тенанттар/региондор үчүн row-level коопсуздук.
Catalog/Lineage: издөө, сүрөттөмөлөр, көз карандылык, ээлери.
14) Чек-баракчалар
14. 1 Операциялык аналитиканы ишке киргизүү
- SLI/SLO сөздүктөр бекитилген, SEV, себептери, өзгөрүү түрлөрү.
- Окуялардын схемалары жана бирдиктүү таймзондор.
- Телеметрия коннекторлору, ITSM, CI/CD, провайдерлер, биллинг.
- Showrooms: SLI/SLO, Incidents, Changes, Providers, FinOps.
- Executive/SRE/Change/Providers dashboard жеткиликтүү.
- Quorum-Alert жана Suppression тейлөө терезелеринде орнотулган.
14. 2 Жума Ops кароо
- SEV-тренддер, MTTR/MTTD, SLO каталар, бурн-мүнөт.
- Change Impact жана CFR, кайтаруу статусу.
- Provider окуялар жана жооп убакыт.
- FinOps: $/бирдик, Логин аномалиялары/egress.
- CAPA статусу, кечигүү, артыкчылыктары.
15) Анти-үлгүлөрү
"Графиктердин дубалы" иш-аракеттерге өтүүсүз.
Командалардын метрикасынын ар кандай аныктамалары (семантикалык катмар жок).
Релиздердин/терезелердин аннотацияларынын жоктугу - себептердин начар атрибуциясы.
p95/p99 ордуна орточо багытталган.
көлөмүн нормалдаштыруу жок - ири кызматтар "жаман көрүнөт".
PII журналдарда/витриналарда, ретенциянын бузулушу.
Маалыматтар "токтоп" (> 5-10 мүнөт реалдуу убакыт widget үчүн).
16) Жол картасы киргизүү (4-8 жума)
1. Нед. 1: метриканын сөздүгү, окуялардын схемалары, id-корреляциялар боюнча макулдашуулар; SLI/SLO жана ITSM туташуу.
2. Нед. 2: Showrooms Incidents/Changes/Providers, релиз түшүндүрмөлөрү; Executive & SRE dashboard.
3. Нед. 3: FinOps катмары ($/бирдик) , SLI менен байланыш; кворум менен аномалия-детал.
4. Нед. 4: self-service (semantic layer/metric store), каталог жана lineage.
5. Нед. 5-6: жүктөө/чыгымдарды болжолдоо, жөнөтүүчүлөргө отчеттор, CAPA-дисплей.
6. Нед. 7-8: камтуу ≥ 95% Tier-0/1, SLA сергектик ≤ 5 мин, үзгүлтүксүз Ops-сын.
17) Жыйынтык
Операциялык аналитика - чечим кабыл алуу машинасы: метриктердин бирдиктүү аныктамасы, жаңы витриналар, себептердин туура атрибуциясы жана плейбуктарга жана SOPге түз өтүүлөр. Мындай системада команда четтөөлөрдү тез аныктайт жана түшүндүрөт, релиздердин жана провайдерлердин таасирин так баалайт, чыгымдарды башкарат жана тобокелдикти системалуу түрдө азайтат - жана колдонуучулар туруктуу кызматты алышат.