GH GambleHub

Վիրահատական վերլուծություն

1) Ի՞ նչ է վիրահատական վերլուծաբանը, և ինչո՞ ւ է այն անհրաժեշտ։

Վիրահատական վերլուծությունը (Ops Analytronics) դիտարկման ազդանշանների համակարգային հավաքումն է (metrics/logs/treiss), ITSM (միջադեպեր/խնդիրներ/փոփոխություններ), CI/CD (DIA/KYC/CLoud), FinOps (ծախսերը) և բիզնես-SLI-ը (վճարումների հաջողությունը, գրանցումը), որը վերածվել է միասնական վիտրինների և dashbords որոշումներ կայացնելու համար։

Նպատակները

Նվազեցնել MTD/MTTR-ը վաղ հայտնաբերման և պատճառների ճիշտ լուծման պատճառով։

պահել sLO-ն և սխալների բյուջեն վերահսկողության տակ։

կապել ռուսական իմպակտի փոփոխությունները (SLI/SLO/բողոքները/ծախսերը);

ստանդարտ f-ռուսական վերլուծություն տալ թիմերին և ղեկավարությանը։

2) Աղբյուրները և կանոնական տվյալների շերտը

Telemetria: metriks (SLI/ռեսուրսներ), լոգներ (յոթ PII/խմբագրություն), թրեյզներ (trace _ id/dive _ id, ռելիզի-թեգեր)։

ITSM/Incident մոդուլներ ՝ SEV, T0/Detected/Ack/Declared/Mitigated/Recovered, RCA/CAPA։

CI/CD & Express-ը ՝ վարկածներ, համայնքներ, կանարիկա/կապույտ-green, դրոշը-սթեյթ, ռուսական դելիգներ։

Պրովայդերներ ՝ կարգավիճակներ/SLA, ձգձգումներ, սխալներ, երթուղիների քաշը։

FinOps :/հաշիվների/տենանտների արժեքը, դոլար/միավորը (1k օպերա) .

SysteOps: Warrin-ը, DQ-սխալները, lineage-ը։

Հիմնական սկզբունքն այն է, որ միասնական հարաբերակցությունը կոդատորների միջոցով '<& lt, «region», «tenium», «releom _ id», «change _ id», «incident _ id», «provider», «trace _ id»։

3) Տվյալների միասնական մոդել (պարզեցված շրջանակ)


dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code    config    infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok    rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency    error    status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)

4) SLI/SLO և բիզնես մետրերը

Бизнес-SLI: `payment_success_ratio`, `signup_completion`, `deposit_latency`.
Тех-SLI: `availability`, `http_p95`, `error_rate`, `queue_depth`.

SLO շերտ 'նպատակներ + burn-rate (կարճ/երկար պատուհան), խախտումների ավտոմատ ծանոթագրություններ։

Նորմալացում '1 k հաջողակ վիրահատությունների/օգտագործողների/։

5) Հարաբերականության և պատճառների կարգավորումը

SLI/SLO/SLO 'գրաֆիկների վրա ծանոթություններ։ պատճառահետևանքային հաշվետվություններ (փոփոխությունների հետ կապված միգրանտների մասնաբաժինը. MTTR change-2019)։

Պրովայդերները մեջբերում են բիզնես-SLI-ը 'vs latency/սխալ երթուղիների քաշը, յուրաքանչյուր պրովայդերի ներդրումը SLO-ում։

Արտադրողականությունը/ռեսուրսները երկարացնում են ձգձգումը 'փամփուշտների գերտաքացումը p95 ռուբլիա աճեց ծրարի վրա։

6) Աննոմալիան և կանխատեսումը

Աննոմալիա մանկություն 'սեզոնային շեմեր + change-որոնողական ֆիչեր (մինչև/թողարկումից հետո)։

Կանխատեսումը 'շաբաթական/սեզոնային փամփուշտներ բեռը, burn-out կանխատեսումը սխալների բյուջեի կանխատեսումը, ծախսերի կանխատեսումը (դոլար) .

Գարդրեյլի 'Ալերտները միայն աղբյուրների քվորում (www.nthetic + RUM + բիզնես SLI)։

7) Վիտրինի և Դաշբորդի (հանրաքվե)

1. Executive 28d: SEV-միկսը, MTTR/MTTD, SLO adherence, դոլար/միավոր, լավագույն պատճառները։

2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable %, Change Failure Rate.

3. Change Impact: SLI/SLO/բողոքներ, արձագանքներ և դրանց ազդեցություն։

4. Providers: PMS/KYC/CDN-ի կարգավիճակը, բիզնեսի SLI-ի վրա ազդեցությունը, պատասխանների ժամանակները։

5. FinOps: cost per 1k txn, logs/egress, ծախսերի անոմալիաներ, առաջարկություններ (սեմպլինգ, պահեստավորում)։

6. SysteOps: Warrin-ը, DQ-սխալները, SLA-ը, backfill-հաջողությունը։

8) Տվյալների որակը և govern.ru

Իրադարձությունների պայմանագրերը 'հստակ սխեմաներ 108/108/SLI (պարտադիր դաշտեր, մեկ ժամյա գոտիներ) համար։

DQ-chekers 'ամբողջականություն, եզակիություն, timline հակադրություն (t0 detected prodack...)։

Գծագիր 'dashbord-ից աղբյուրից (traceable)։

PII/գաղտնիքները 'խմբագրում/դիմակավորում քաղաքականության; WORM evidence-ի համար։

SLA թարմություն ՝ Ops-ի վիտրինները 5 րոպե ուշացման։

9) Վիրահատական վերլուծության հասունությունը

Coverage: Քննադատական ծառայությունների տոկոսը վիտրիններում և SLO-բորդներում (նպատակը 3695 տոկոսն է)։

Freshness: Տեսակների մասնաբաժինը թարմ 355 րոպե (նպատակը 3695 տոկոսն է)։

Actionability: Դաշբորդից անցումների տոկոսը գործողության (pleybuk/SOP/ticet) 90 տոկոսն է։

Detault Coverage: 2485 տոկոսը հայտնաբերում է ավտոմատիկա։

Attribution Rate-ը ապացուցված պատճառով և տրիգերի մասնաբաժինը 90 տոկոսն է։

Change Impact System-ը փոփոխությունների հետ կապված միգրանտների մասն է (կառավարում ենք միտումը)։

Express Quality: DQ սխալներ/շաբաթ No. QoQ։

10) Գործընթացը 'տվյալներից մինչև գործողություն

1. Ռուսական մաքրման հավաքումը կատարվում է վիտրինի ստանդարտացման (ETL/ELT, feature շերտ ML-ի համար)։

2. Հայտնաբերումը/կանխատեսումը բացատրվում է մատրիցով (IC/P1/P2/Comics)։

3. Գործողություն 'պլեյբուկ/SOP, ռելիզային գեյթ, ֆիչի դրոշը, պրովայդերի անցումը։

4. Evidence-ը և AAR/RCA-ը 'թայմլինը, գրաֆիկները, հղում ալյումիններին/լոգներին/թրեյսներին։

5. CAPA-ն և սննդի լուծումները 'burn-րոպեների գերակայություն և -impakta դոլար։

11) Հարցումների օրինակներ (գաղափար)

11. 1 Ածխաջրածինների ազդեցությունը SLO-ի վրա (108 ժամ)

sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;

11. 2 Խնդիրների մասնաբաժինը տարածաշրջանի պրովայդերներից

sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;

11. 3 Cost per 1k հաջող վճարումներ

sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;

12) Արտեֆակտների օրինակները

12. 1 Իրադարձությունների սխեմա (JSON, հատված)

json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}

12. 2 Մետրանոց կատալոգ (YAML, հատված)

yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false

12. 3 Executive զեկույցի քարտը (հատվածներ)


1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines

13) Գործիքներ և ճարտարապետական արտոնագրեր

Express Lake + MSH: «հում» շերտ հեռաչափության համար, լուծումների պատուհաններ։

Stream-պրոցեսինգ ՝ near-real-time SLI/burn-rate, առցանց ֆիչեր անոմալիաների համար։

Feature Store: կրկնվող ֆիչի օգտագործումը (կանարիկա, սեզոնային, պրովայդեր ազդանշաններ)։

Semantic Layer/Metric Store: Մեկ մետրի սահմանումներ (SLO, MTTR...)։

Systel-ը ՝ RBAC/ABAC, row-level-ը պատրաստված է տենանտների/տարածաշրջանների համար։

Catalog/Lineage: Որոնումներ, նկարագրություններ, կախվածություններ, սեփականատերեր։

14) Չեկ թերթերը

14. 1 Վիրահատական վերլուծության արձակումը

  • SLI/SLO, SEV, պատճառներ, change տեսակներ։
  • Իրադարձությունների սխեմաները և միասնական թայմզոնները։
  • Հեռուստացույցի գրասենյակները, ITSM, CI/CD, պրովայդերներ, բիլինգ։
  • Վիտրիններ ՝ SLI/SLO, Incidents, Changes, Providers, FinOps։
  • Executive/Change/Providers dashbords հասանելի են։
  • Kvorum-alerta և suppression ծառայության պատուհանի վրա։

14. 2 Շաբաթական Ops-ակնարկ

  • SEV միտումները, MTTR/MTTD, SLO պրոմահ, burn-րոպե։
  • Change Impact և CFR, արձագանքների կարգավիճակ։
  • Պրովայդերական դեպքերը և արձագանքման ժամանակները։
  • FinOps: ԱՄՆ դոլար, լոգարանների/egress անոմալիա։
  • CAPA կարգավիճակը, ժամկետները, գերակայությունները։

15) Anti-patterna

«Գրաֆիկների պատը» առանց գործողությունների անցնելու։

Տարբեր սահմանումներ թիմերի մոտ (սեմանտիկ շերտ չկա)։

Օրինագծերի/պատուհանների իմիտացիայի բացակայությունը պատճառների թուլությունն է։

Կենտրոնացումը միջին փոխարեն p95/p99։

Ծավալի նորմալացում չկա, մեծ ծառայությունները «ավելի վատ են թվում»։

PII-ը լոգարաններում/վիտրիններում, վերականգնումների խախտումը։

Տվյալները «խրված» են (> 5-10 րոպե real-time-time)։

16) Ճանապարհի քարտեզը (4-8 շաբաթ)

1. Մոսկվան։ 1: համաձայն բառարանի, իրադարձությունների սխեմաների, id-հարաբերակցության։ SLI/SLO և ITSM կապը։

2. Մոսկվան։ 2: Incidents/Changes/Providers վիտրինները, ածխաջրածինների ծանոթությունները; Executive & MSE dashbords.

3. Մոսկվան։ 3: FinOps շերտը (դոլար/ed.) , կապ SLI-ի հետ; անոմալիա-մանկատուն 'կվորումի հետ։

4. Մոսկվան։ 4: www.f-2019 (semantic layer/metric store), կատալոգը և lineage։

5. Մոսկվան։ 5-6 'բեռի/ծախսերի կանխատեսումը, պրովայդերների հաշվետվությունները, CAPA-վիտրինը։

6. Մոսկվան։ 7-8: 07 2495 տոկոսը Tier-0/1, SLA թարմ 245 րոպե, մեջբերում են Ops-ակնարկները։

17) Արդյունքը

Վիրահատական վերլուծությունը որոշումների կայացման մեխանիզմ է 'մետրիկ, թարմ վիտրիններ, պատճառների ճիշտ հեռացում և ուղղակի անցում դեպի պլեյբուսներ և SOP։ Այս համակարգում թիմը արագ հայտնաբերում և բացատրում է շեղումները, ճշգրիտ գնահատում է ածխաջրերի և պրովայդերների ազդեցությունը, կառավարում է ծախսերը և համակարգված նվազեցնում ռիսկը, իսկ օգտագործողները ստանում են կայուն ծառայություն։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։