Վիրահատական վերլուծություն
1) Ի՞ նչ է վիրահատական վերլուծաբանը, և ինչո՞ ւ է այն անհրաժեշտ։
Վիրահատական վերլուծությունը (Ops Analytronics) դիտարկման ազդանշանների համակարգային հավաքումն է (metrics/logs/treiss), ITSM (միջադեպեր/խնդիրներ/փոփոխություններ), CI/CD (DIA/KYC/CLoud), FinOps (ծախսերը) և բիզնես-SLI-ը (վճարումների հաջողությունը, գրանցումը), որը վերածվել է միասնական վիտրինների և dashbords որոշումներ կայացնելու համար։
Նպատակները
Նվազեցնել MTD/MTTR-ը վաղ հայտնաբերման և պատճառների ճիշտ լուծման պատճառով։
պահել sLO-ն և սխալների բյուջեն վերահսկողության տակ։
կապել ռուսական իմպակտի փոփոխությունները (SLI/SLO/բողոքները/ծախսերը);
ստանդարտ f-ռուսական վերլուծություն տալ թիմերին և ղեկավարությանը։
2) Աղբյուրները և կանոնական տվյալների շերտը
Telemetria: metriks (SLI/ռեսուրսներ), լոգներ (յոթ PII/խմբագրություն), թրեյզներ (trace _ id/dive _ id, ռելիզի-թեգեր)։
ITSM/Incident մոդուլներ ՝ SEV, T0/Detected/Ack/Declared/Mitigated/Recovered, RCA/CAPA։
CI/CD & Express-ը ՝ վարկածներ, համայնքներ, կանարիկա/կապույտ-green, դրոշը-սթեյթ, ռուսական դելիգներ։
Պրովայդերներ ՝ կարգավիճակներ/SLA, ձգձգումներ, սխալներ, երթուղիների քաշը։
FinOps :/հաշիվների/տենանտների արժեքը, դոլար/միավորը (1k օպերա) .
SysteOps: Warrin-ը, DQ-սխալները, lineage-ը։
Հիմնական սկզբունքն այն է, որ միասնական հարաբերակցությունը կոդատորների միջոցով '<& lt, «region», «tenium», «releom _ id», «change _ id», «incident _ id», «provider», «trace _ id»։
3) Տվյալների միասնական մոդել (պարզեցված շրջանակ)
dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code config infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency error status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)
4) SLI/SLO և բիզնես մետրերը
Бизнес-SLI: `payment_success_ratio`, `signup_completion`, `deposit_latency`.
Тех-SLI: `availability`, `http_p95`, `error_rate`, `queue_depth`.
SLO շերտ 'նպատակներ + burn-rate (կարճ/երկար պատուհան), խախտումների ավտոմատ ծանոթագրություններ։
Նորմալացում '1 k հաջողակ վիրահատությունների/օգտագործողների/։
5) Հարաբերականության և պատճառների կարգավորումը
SLI/SLO/SLO 'գրաֆիկների վրա ծանոթություններ։ պատճառահետևանքային հաշվետվություններ (փոփոխությունների հետ կապված միգրանտների մասնաբաժինը. MTTR change-2019)։
Պրովայդերները մեջբերում են բիզնես-SLI-ը 'vs latency/սխալ երթուղիների քաշը, յուրաքանչյուր պրովայդերի ներդրումը SLO-ում։
Արտադրողականությունը/ռեսուրսները երկարացնում են ձգձգումը 'փամփուշտների գերտաքացումը p95 ռուբլիա աճեց ծրարի վրա։
6) Աննոմալիան և կանխատեսումը
Աննոմալիա մանկություն 'սեզոնային շեմեր + change-որոնողական ֆիչեր (մինչև/թողարկումից հետո)։
Կանխատեսումը 'շաբաթական/սեզոնային փամփուշտներ բեռը, burn-out կանխատեսումը սխալների բյուջեի կանխատեսումը, ծախսերի կանխատեսումը (դոլար) .
Գարդրեյլի 'Ալերտները միայն աղբյուրների քվորում (www.nthetic + RUM + բիզնես SLI)։
7) Վիտրինի և Դաշբորդի (հանրաքվե)
1. Executive 28d: SEV-միկսը, MTTR/MTTD, SLO adherence, դոլար/միավոր, լավագույն պատճառները։
2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable %, Change Failure Rate.
3. Change Impact: SLI/SLO/բողոքներ, արձագանքներ և դրանց ազդեցություն։
4. Providers: PMS/KYC/CDN-ի կարգավիճակը, բիզնեսի SLI-ի վրա ազդեցությունը, պատասխանների ժամանակները։
5. FinOps: cost per 1k txn, logs/egress, ծախսերի անոմալիաներ, առաջարկություններ (սեմպլինգ, պահեստավորում)։
6. SysteOps: Warrin-ը, DQ-սխալները, SLA-ը, backfill-հաջողությունը։
8) Տվյալների որակը և govern.ru
Իրադարձությունների պայմանագրերը 'հստակ սխեմաներ 108/108/SLI (պարտադիր դաշտեր, մեկ ժամյա գոտիներ) համար։
DQ-chekers 'ամբողջականություն, եզակիություն, timline հակադրություն (t0 detected prodack...)։
Գծագիր 'dashbord-ից աղբյուրից (traceable)։
PII/գաղտնիքները 'խմբագրում/դիմակավորում քաղաքականության; WORM evidence-ի համար։
SLA թարմություն ՝ Ops-ի վիտրինները 5 րոպե ուշացման։
9) Վիրահատական վերլուծության հասունությունը
Coverage: Քննադատական ծառայությունների տոկոսը վիտրիններում և SLO-բորդներում (նպատակը 3695 տոկոսն է)։
Freshness: Տեսակների մասնաբաժինը թարմ 355 րոպե (նպատակը 3695 տոկոսն է)։
Actionability: Դաշբորդից անցումների տոկոսը գործողության (pleybuk/SOP/ticet) 90 տոկոսն է։
Detault Coverage: 2485 տոկոսը հայտնաբերում է ավտոմատիկա։
Attribution Rate-ը ապացուցված պատճառով և տրիգերի մասնաբաժինը 90 տոկոսն է։
Change Impact System-ը փոփոխությունների հետ կապված միգրանտների մասն է (կառավարում ենք միտումը)։
Express Quality: DQ սխալներ/շաբաթ No. QoQ։
10) Գործընթացը 'տվյալներից մինչև գործողություն
1. Ռուսական մաքրման հավաքումը կատարվում է վիտրինի ստանդարտացման (ETL/ELT, feature շերտ ML-ի համար)։
2. Հայտնաբերումը/կանխատեսումը բացատրվում է մատրիցով (IC/P1/P2/Comics)։
3. Գործողություն 'պլեյբուկ/SOP, ռելիզային գեյթ, ֆիչի դրոշը, պրովայդերի անցումը։
4. Evidence-ը և AAR/RCA-ը 'թայմլինը, գրաֆիկները, հղում ալյումիններին/լոգներին/թրեյսներին։
5. CAPA-ն և սննդի լուծումները 'burn-րոպեների գերակայություն և -impakta դոլար։
11) Հարցումների օրինակներ (գաղափար)
11. 1 Ածխաջրածինների ազդեցությունը SLO-ի վրա (108 ժամ)
sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;
11. 2 Խնդիրների մասնաբաժինը տարածաշրջանի պրովայդերներից
sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;
11. 3 Cost per 1k հաջող վճարումներ
sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;
12) Արտեֆակտների օրինակները
12. 1 Իրադարձությունների սխեմա (JSON, հատված)
json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}
12. 2 Մետրանոց կատալոգ (YAML, հատված)
yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false
12. 3 Executive զեկույցի քարտը (հատվածներ)
1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines
13) Գործիքներ և ճարտարապետական արտոնագրեր
Express Lake + MSH: «հում» շերտ հեռաչափության համար, լուծումների պատուհաններ։
Stream-պրոցեսինգ ՝ near-real-time SLI/burn-rate, առցանց ֆիչեր անոմալիաների համար։
Feature Store: կրկնվող ֆիչի օգտագործումը (կանարիկա, սեզոնային, պրովայդեր ազդանշաններ)։
Semantic Layer/Metric Store: Մեկ մետրի սահմանումներ (SLO, MTTR...)։
Systel-ը ՝ RBAC/ABAC, row-level-ը պատրաստված է տենանտների/տարածաշրջանների համար։
Catalog/Lineage: Որոնումներ, նկարագրություններ, կախվածություններ, սեփականատերեր։
14) Չեկ թերթերը
14. 1 Վիրահատական վերլուծության արձակումը
- SLI/SLO, SEV, պատճառներ, change տեսակներ։
- Իրադարձությունների սխեմաները և միասնական թայմզոնները։
- Հեռուստացույցի գրասենյակները, ITSM, CI/CD, պրովայդերներ, բիլինգ։
- Վիտրիններ ՝ SLI/SLO, Incidents, Changes, Providers, FinOps։
- Executive/Change/Providers dashbords հասանելի են։
- Kvorum-alerta և suppression ծառայության պատուհանի վրա։
14. 2 Շաբաթական Ops-ակնարկ
- SEV միտումները, MTTR/MTTD, SLO պրոմահ, burn-րոպե։
- Change Impact և CFR, արձագանքների կարգավիճակ։
- Պրովայդերական դեպքերը և արձագանքման ժամանակները։
- FinOps: ԱՄՆ դոլար, լոգարանների/egress անոմալիա։
- CAPA կարգավիճակը, ժամկետները, գերակայությունները։
15) Anti-patterna
«Գրաֆիկների պատը» առանց գործողությունների անցնելու։
Տարբեր սահմանումներ թիմերի մոտ (սեմանտիկ շերտ չկա)։
Օրինագծերի/պատուհանների իմիտացիայի բացակայությունը պատճառների թուլությունն է։
Կենտրոնացումը միջին փոխարեն p95/p99։
Ծավալի նորմալացում չկա, մեծ ծառայությունները «ավելի վատ են թվում»։
PII-ը լոգարաններում/վիտրիններում, վերականգնումների խախտումը։
Տվյալները «խրված» են (> 5-10 րոպե real-time-time)։
16) Ճանապարհի քարտեզը (4-8 շաբաթ)
1. Մոսկվան։ 1: համաձայն բառարանի, իրադարձությունների սխեմաների, id-հարաբերակցության։ SLI/SLO և ITSM կապը։
2. Մոսկվան։ 2: Incidents/Changes/Providers վիտրինները, ածխաջրածինների ծանոթությունները; Executive & MSE dashbords.
3. Մոսկվան։ 3: FinOps շերտը (դոլար/ed.) , կապ SLI-ի հետ; անոմալիա-մանկատուն 'կվորումի հետ։
4. Մոսկվան։ 4: www.f-2019 (semantic layer/metric store), կատալոգը և lineage։
5. Մոսկվան։ 5-6 'բեռի/ծախսերի կանխատեսումը, պրովայդերների հաշվետվությունները, CAPA-վիտրինը։
6. Մոսկվան։ 7-8: 07 2495 տոկոսը Tier-0/1, SLA թարմ 245 րոպե, մեջբերում են Ops-ակնարկները։
17) Արդյունքը
Վիրահատական վերլուծությունը որոշումների կայացման մեխանիզմ է 'մետրիկ, թարմ վիտրիններ, պատճառների ճիշտ հեռացում և ուղղակի անցում դեպի պլեյբուսներ և SOP։ Այս համակարգում թիմը արագ հայտնաբերում և բացատրում է շեղումները, ճշգրիտ գնահատում է ածխաջրերի և պրովայդերների ազդեցությունը, կառավարում է ծախսերը և համակարգված նվազեցնում ռիսկը, իսկ օգտագործողները ստանում են կայուն ծառայություն։