Վիրահատություններ և Audit Metric և SLA
Մեթրիկի և SLA
1) Ինչո՞ ւ է դա անհրաժեշտ
Եթե մետրերը սխալ են, լուծումները սխալ կլինեն, SLA-ն կխախտի «թղթի վրա» կամ հակառակը թաքցնել խնդիրները։ Մեթրիկի և SLA-ի աուդիտը երաշխավորում է օգտագործողների և գործընկերների առջև խոստումների համեմատությունը, հուսալիությունը և իրավաբանական պաշտպանությունը։
Նպատակները
Ապահովել մեկ «ճշմարտության աղբյուրը» (SSOT) և վերարտադրված հաշվարկները։
Նվազեցնել տարբերությունները dashbords/զեկույցների/բիլինգի միջև։
SLA դարձնել ավարտված և ստուգված (evidence-based)։
Չափումների դեգրադացիաները նույնքան վաղ են, որքան ծառայություններում։
2) Հիմնական հասկացությունները և պատասխանատվության սահմանները
Metric (metrika) 'չափված մեծություն (RPS, p95, CR, GGR, Success Rate)։
KPI/OKR 'նպատակներ, որոնց հետ կապված են մետրերը։
SLO 'մրցույթի նպատակային որակը (օրինակ ՝ "p99-400 ms 99։ Ժամանակի 9 տոկոսը")։
SLA 'արտաքին խոստում; իրավաբանորեն նշանակալի, հիմնված է SLO-ի վրա։
OLA 'թիմերի/վենդորների միջև ներքին պայմանագիրը աջակցում է SLA-ն։
SSOT: համակարգ/պահեստ, որի տվյալները համարվում են ստանդարտ կոդավորման համար։
3) Taksonomia metric (շերտեր)
1. Ենթակառուցվածքը ՝ CPU/Memory/IO/Net, ենթակառուցվածքները/108, HPA/MSA։
2. Պլատֆորմը ՝ հերթեր/strims (lag, throughput), BD/kashi (կոններ, hit), API (p95/p99, 5xx)։
3. Բիզնես հոսքերը 'դեպոզիտներ/եզրակացություններ, տոկոսադրույքներ, խաղերի մեկնարկը, հեղինակային իրավունքը, KYC-ը։
4. Ապրանքը/մարքեթինգը 'փոխարկումներ, ARPU/LTV, քարոզարշավներ։
5. Գործընթացների որակը ՝ MTTA/MTTR, Change Failure Rate, չեկ թերթերի ծածկույթ։
Կանոն 'յուրաքանչյուր մետր պետք է ունենա շերտ, սեփականատեր և բանաձև։
4) Տվյալների աղբյուրները և «ճշմարտությունը»
Հեռուստացույց առցանց 'Prometheus/OTel, լոգներ (ELK/ClickHouse), հետքեր։
Իրադարձությունները և հաշվապահությունը ՝ Kafka/Disbox, MSH/ամսաթվերը (BigQuery/ClickHouse)։
Ձեռքի արտեֆակտներ ՝ հետմորտեմներ, տիկետներ, տրամագծեր։
Արտաքին մրցույթները 'պրովայդերների հաշվետվությունները (PMS/KYC/ստուդիա), բիլինգը։
Հակամարտության լուծումը '«առցանց vs MSH» -ի բաժանման ժամանակ գերակայության կանոնակարգն է (օրինակ, SLA-ի համար - RTH-ի ագրեգատները աղբյուրային ուղու հետ)։
5) Տեխնոլոգիական մեթրիկի գործընթացը (կառավարման համակարգը)
1. Բուլգարիզացիան 'մետրիկ/SLO/SLA (անունը, սեփականատերը, շերտը, բանաձևը, աղբյուրը, հաշվարկման հաճախությունը)։
2. Բանաձևի վերիֆիկացումը 'SQL/prom հարցումներ որոշելու հետ (unit-թեստեր)։
3. Samplight-ը և նամականիշները 'իրադարձությունների/լոգարանների տողերի նմուշներ և ձեռքով շրջանակ։
4. Կոնտուրների համեմատություն 'առցանց dashbords և MSH-2019 համեմատություն։
5. Փոփոխությունների վերահսկումը 'նախանձախնդիր բանաձևը սխեմաների/տրամաբանության թողարկման ժամանակ։
6. SLA-ի աուդիտը 'խնայողությունների և բացառությունների ճկունության ստուգում (planned maintenae, fors major)։
7. Զեկույցը և բարելավումը 'բացահայտված տարաձայնությունների և դեդլինների հետ։
6) Սահմանումներ և բանաձևեր (նմուշներ)
Success Rate (API):- `success = requests - (5xx + timeouts + circuit_open)`
- `success_rate = success / requests`
- SSOT-ում տեղադրված է պատուհանի մեկ սահմանումը (rolling 5m/1h) և ագրեգացիան (HDR/TDigest)։
SLO (օրինակ)
«SLO _ availability _ month = (աշխատանքի ժամանակը թույլատրելի _ բացառություն է )/ընդհանուր _ ժամանակ»
SLA (օրինակ պրովայդերի համար)
`SLA_month = 99. UTC-ի պատուհանի 90 տոկոսը, բացառելով պլանավորված պատուհանները (T-48 ծանուցում), որոնք ապացուցում են վթարները մետրոպոլիտենի օպերատորներից (փաստաթղթերը)։
7) Տվյալների որակը 'ստուգումներ և ալտերտեր
Որակի ստուգումներ
Полнота (completeness): `received_events / expected_events ≥ 0. 99`.
Ժամանակի (timeliness) 'N րոպեի բեռնման լագը։
Յուրահատուկ (uniqueness) 'առանց բեկորների (idempotency-key)։
Համաձայն (consistency) 'գումարներ/արժույթ/նշաններ։
Գծայնությունը (monotonicity) 'հաշվիչները չեն «նետվում»։
Ալերտները միգրանցների որակի վրա (գաղափարներ)
ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m
ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m
ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2
8) SLA/OLA 'մեթոդաբանություն
1. Հավաքեք բացառությունների օրացույցը 'պլանավորված պատուհաններ, դեգրադացիաներ, գողերի ակտեր։
2. Ապթայմի հաշվարկը 'միասնական ժամանակային գոտի, SSOT-ի աջակցությունից։
3. Դեպքերի հետ միասին 'թայմլին, տոմսեր, հետմորտեմներ։
4. Ընդհանուր 'սեփական ձախողումները, պրովայդերը, տարանցումը, DDoS-ը, վերանորոգման աշխատանքները։
5. SLA պարիմետրը 'օգտագործողի փորձը (E2E) vs-ը մեկ կոնկրետ API-ն է։
6. Հաշվետվություններ ՝ ամսական/եռամսյակի զեկույցը 'փաստ, շեղումներ, փոխհատուցում (եթե կիրառելի է), ուղղիչ միջոցներ։
9) Վերարտադրության ստուգում
Բանաձևի տարբերակումը 'Git-ռեպոզորիա SQL/PromQL/dok-հատկություններով։
Unit-թեստերը մետրիկ են 'wwww.nthetic տվյալների վրա (edge-cass ՝ բաց թողնեք, դուբլի, ամսաթվերի սահմանները)։
Interneage 'dashborda ետ սկզբնական բրազիլացիների և իրադարձությունների հետ։
Սարքավորումը 'տվյալների սառեցումը խցիկի վրա, որպեսզի փետուրի հաշվարկները համեմատվեն։
10) Ստուգման նմուշները (sampling)
Ամեն օր 10-20 իրադարձություններ հիմնական հոսքերի վրա (դեպոզիտ/տոկոսադրույք/KUS) - SDH-ի ուղու ձեռքով շրջանակը։
Ամեն շաբաթ '1 տոկոսը sample համեմատելու համար «առցանց vs MSH» ագրեգատներով։
Ամեն ամիս, SLA էֆեկտով կոդավորման փաթեթը մանրամասն վերակառուցում է։
Նմուշառման ակտը (հակիրճ)
Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability
11) Dashbords աուդիտ և ծանուցում
Մեկ բառակապաշար 'գլոսարիան հենց դաշբորդի վրա է։
Օրինագծերի/լիմենտների նույնականացումները 'շեղումների պատճառը տեսնելու համար։
«Մինչև/հետո» համեմատությունը 'ռեգրեսիայի ավտոմատ վահանակները։
Դուբլի/տարբերությունները '«երկու տարբեր p99» հայտնաբերումը բանաձևերի/պատուհանների աջ է։
Մրցույթի հասանելիությունը 'իրավունքներ, պահեստներ, հղումների/տարբերակների վերահսկողություն։
12) Փոփոխությունների կառավարումը մետրերում
RSA գործընթացը 'բանաձևի/պատուհանի/աղբյուրի փոփոխությունը RFC-ի միջոցով' SLA/հաշվետվության վրա ազդեցության գնահատմամբ։
«Expand www.migrate www.ract» խմբակցությունը, ժամանակավորապես երկու տարբերակները, համեմատում ենք, ապա անջատում ենք հինը։
Հաղորդակցություն 'նախապես տեղեկացնել ապրանքը/բիզնեսը արժեքների փոփոխության մասին «նոր մեթոդով»։
13) iGaming/fintech առանձնահատկությունները
Պահանջարկի պիկի 'մետրերը պետք է դիմակայեն պայթուցիկ բեռներին (ագրեգացիաները չեն «կպչում»)։
Պրովայդերներ ՝ SLA-ն կախված է OLA վենդորներից, որոնք պետք է պահեն իրենց զեկույցները, կոդերի արձանները և քվոտաները։
Արժեքը '«cost _ per _ 1k _ calls» և «հաջողության արժեքը» պարտադիր վահանակներ են։
Անտիֆրոդը/ռիսկը 'ուշացման զգայունությունը և «կեղծ աշխատանքը» մետրիկը։
14) Dashbords 2019 (նվազագույն հավաքածու)
Metrics Health: completeness/timeliness/duplicates, ingest-lag, ошибки ETL.
SLO/SLA Evidence: SLO հաշվարկված, իրական SLA, բացառություններ, հղում միջադեպերին/գործողություններին։
Online vs MSH Compare: p95/p99/Success Rate, շեղումներ և միտումներ։
Vendor SLA: aptaim/քվոտա/tim-uta/արժեքը պրովայդերների կտրվածքում։
Releault Impact: ռեգրեսիա metric-ից հետո/ներառելուց հետո։
15) Chek-Show (վիրահատական)
- Metric/SLO/SLA-ի կատալոգը սեփականատերերի և բանաձևերի հետ արդիական է։
- SSOT-ը նախատեսված է յուրաքանչյուր զեկույցի/վահանակի համար։
- Junit-թեստերը կանաչ բանաձևեր են, www.plins-ը տեղադրված է։
- Ալերտները տվյալների որակի համար ակտիվ են (completeness/timeliness/duplicates)։
- «Onronvs MSH» թույլատրելի շեմի տարբերությունը (օրինակ ՝ 242%)։
- SLA բացառությունների իրականացումը հետևյալն է.
- Ստուգման նմուշներ կատարվեցին և կազմվեցին ակտեր։
- Բանաձևերի բոլոր փոփոխությունները անցան RFC և միգրացիան։
16) Օրինակներ (բեկորներ)
PromQL-ը p99-ի համեմատությունն է թողարկումից հետո
api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL-ն իրադարձությունների լիարժեքության վերահսկումն է
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanager-ի կանոնը կոնտուրների տարբերությունն է
ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}
17) Anti-patterna
Երկու տարբեր բանաձևեր տարբեր վահանակների վրա։
Մետրիկի փոփոխությունը առանց տեղեկատվության և ծանուցման 'OKR/SLA-ում «ցատկ»։
Տեղական Express-ում զեկույցները որպես «ճշմարտություն» (անսահման)։
Ժամացույցի գոտիների և օրացույցների խառնուրդը SLA հաշվարկներում։
SLA բացառությունները փաստագրական չեն։
Ոչ մի ալտերտ, որի որակը գնացող է։
18) KPI հասունությունը
Drift Rate Online-ը MSH-ն է (նպատակը 242 տոկոսն է)։
Metrance Health Uptime (ժամանակը առանց ingest/ETL դեգրադացիայի)։
Time-to-Fix Express (սխալի վերացման ժամանակը բանաձևում)։
SLA Disport Rate (գործընկերների հետ վիճահարույց դեպքերի հաճախությունը)։
Coverage SLO/SLA (կրիտիկական ճանապարհների մասը ֆորմալ նկարագրված SLO/SLA)։
19) Դերեր և պատասխանատվություն
Մետրիկի սեփականատերը/108: բանաձևը, աղբյուրը, դաշբորդը, ալերտները։
Observability/MSE: SSOT/պլատֆորմը, բանաձևի թեստերը, տվյալների որակի ալտերը։
System/BI: MSH, շարժիչի վերարտադրություն, lineage։
Իրավաբաններ/գործընկեր ղեկավարներ 'SLA պայմանագրեր և բացառություններ։
Դեպրեսիվ մենեջեր 'հեռացում և միացում SLA-ի հետ։
20) Արագ սկիզբը (30 օր)
Շաբաթ 1: Բուլգարիզացիա մետրիկ/SLO/SLA և սեփականատերերի; Նշանակել SSOT։
Շաբաթ 2: միացրեք տվյալների որակի ալտերը և «Onronvs MSH» վահանակը։
Շաբաթը 3 'վերահսկողական նմուշներ անցկացնել, հավասարեցնել p95/p99 պատուհանը։
Շաբաթը 4: ձևավորել RSA գործընթացը բանաձևերի համար, պատրաստել ամսական SLA զեկույցը ծրագրերի հետ։
21) FAQ
Q 'Ի՞ նչ կարելի է համարել SSOT SLA-ի համար։
A 'վերարտադրված հաշվարկներով (PPH) և ամբողջական lineage; առցանց վահանակները 'վերահսկման համար, ոչ իրավաբանական ակտերի համար։
Q 'Ինչպե՞ ս պայքարել «երկու p99» -ի դեմ։
A 'Ուղղել պատուհանը/ագրեգացիայի մեթոդը 105 մետրում, գաղթել վահանակները, ավելացնել ալերտը։
Q 'Ինչպե՞ ս հաշվի առնել պլանային աշխատանքը։
Ա 'Բացառությունների օրացույցը և ինքնաբերաբար դրանք SLA-ից' պայմանագրի կանոններով։ պահել ապացուցող արտեֆակտները։