GH GambleHub

Վիրահատություններ և Audit Metric և SLA

Մեթրիկի և SLA

1) Ինչո՞ ւ է դա անհրաժեշտ

Եթե մետրերը սխալ են, լուծումները սխալ կլինեն, SLA-ն կխախտի «թղթի վրա» կամ հակառակը թաքցնել խնդիրները։ Մեթրիկի և SLA-ի աուդիտը երաշխավորում է օգտագործողների և գործընկերների առջև խոստումների համեմատությունը, հուսալիությունը և իրավաբանական պաշտպանությունը։

Նպատակները

Ապահովել մեկ «ճշմարտության աղբյուրը» (SSOT) և վերարտադրված հաշվարկները։

Նվազեցնել տարբերությունները dashbords/զեկույցների/բիլինգի միջև։

SLA դարձնել ավարտված և ստուգված (evidence-based)։

Չափումների դեգրադացիաները նույնքան վաղ են, որքան ծառայություններում։

2) Հիմնական հասկացությունները և պատասխանատվության սահմանները

Metric (metrika) 'չափված մեծություն (RPS, p95, CR, GGR, Success Rate)։

KPI/OKR 'նպատակներ, որոնց հետ կապված են մետրերը։

SLO 'մրցույթի նպատակային որակը (օրինակ ՝ "p99-400 ms 99։ Ժամանակի 9 տոկոսը")։

SLA 'արտաքին խոստում; իրավաբանորեն նշանակալի, հիմնված է SLO-ի վրա։

OLA 'թիմերի/վենդորների միջև ներքին պայմանագիրը աջակցում է SLA-ն։

SSOT: համակարգ/պահեստ, որի տվյալները համարվում են ստանդարտ կոդավորման համար։

3) Taksonomia metric (շերտեր)

1. Ենթակառուցվածքը ՝ CPU/Memory/IO/Net, ենթակառուցվածքները/108, HPA/MSA։

2. Պլատֆորմը ՝ հերթեր/strims (lag, throughput), BD/kashi (կոններ, hit), API (p95/p99, 5xx)։

3. Բիզնես հոսքերը 'դեպոզիտներ/եզրակացություններ, տոկոսադրույքներ, խաղերի մեկնարկը, հեղինակային իրավունքը, KYC-ը։

4. Ապրանքը/մարքեթինգը 'փոխարկումներ, ARPU/LTV, քարոզարշավներ։

5. Գործընթացների որակը ՝ MTTA/MTTR, Change Failure Rate, չեկ թերթերի ծածկույթ։

Կանոն 'յուրաքանչյուր մետր պետք է ունենա շերտ, սեփականատեր և բանաձև։

4) Տվյալների աղբյուրները և «ճշմարտությունը»

Հեռուստացույց առցանց 'Prometheus/OTel, լոգներ (ELK/ClickHouse), հետքեր։

Իրադարձությունները և հաշվապահությունը ՝ Kafka/Disbox, MSH/ամսաթվերը (BigQuery/ClickHouse)։

Ձեռքի արտեֆակտներ ՝ հետմորտեմներ, տիկետներ, տրամագծեր։

Արտաքին մրցույթները 'պրովայդերների հաշվետվությունները (PMS/KYC/ստուդիա), բիլինգը։

Հակամարտության լուծումը '«առցանց vs MSH» -ի բաժանման ժամանակ գերակայության կանոնակարգն է (օրինակ, SLA-ի համար - RTH-ի ագրեգատները աղբյուրային ուղու հետ)։

5) Տեխնոլոգիական մեթրիկի գործընթացը (կառավարման համակարգը)

1. Բուլգարիզացիան 'մետրիկ/SLO/SLA (անունը, սեփականատերը, շերտը, բանաձևը, աղբյուրը, հաշվարկման հաճախությունը)։

2. Բանաձևի վերիֆիկացումը 'SQL/prom հարցումներ որոշելու հետ (unit-թեստեր)։

3. Samplight-ը և նամականիշները 'իրադարձությունների/լոգարանների տողերի նմուշներ և ձեռքով շրջանակ։

4. Կոնտուրների համեմատություն 'առցանց dashbords և MSH-2019 համեմատություն։

5. Փոփոխությունների վերահսկումը 'նախանձախնդիր բանաձևը սխեմաների/տրամաբանության թողարկման ժամանակ։

6. SLA-ի աուդիտը 'խնայողությունների և բացառությունների ճկունության ստուգում (planned maintenae, fors major)։

7. Զեկույցը և բարելավումը 'բացահայտված տարաձայնությունների և դեդլինների հետ։

6) Սահմանումներ և բանաձևեր (նմուշներ)

Success Rate (API):
  • `success = requests - (5xx + timeouts + circuit_open)`
  • `success_rate = success / requests`
Latency p95/p99:
  • SSOT-ում տեղադրված է պատուհանի մեկ սահմանումը (rolling 5m/1h) և ագրեգացիան (HDR/TDigest)։

SLO (օրինակ)

«SLO _ availability _ month = (աշխատանքի ժամանակը թույլատրելի _ բացառություն է )/ընդհանուր _ ժամանակ»

SLA (օրինակ պրովայդերի համար)

`SLA_month = 99. UTC-ի պատուհանի 90 տոկոսը, բացառելով պլանավորված պատուհանները (T-48 ծանուցում), որոնք ապացուցում են վթարները մետրոպոլիտենի օպերատորներից (փաստաթղթերը)։

7) Տվյալների որակը 'ստուգումներ և ալտերտեր

Որակի ստուգումներ

Полнота (completeness): `received_events / expected_events ≥ 0. 99`.

Ժամանակի (timeliness) 'N րոպեի բեռնման լագը։

Յուրահատուկ (uniqueness) 'առանց բեկորների (idempotency-key)։

Համաձայն (consistency) 'գումարներ/արժույթ/նշաններ։

Գծայնությունը (monotonicity) 'հաշվիչները չեն «նետվում»։

Ալերտները միգրանցների որակի վրա (գաղափարներ)


ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8) SLA/OLA 'մեթոդաբանություն

1. Հավաքեք բացառությունների օրացույցը 'պլանավորված պատուհաններ, դեգրադացիաներ, գողերի ակտեր։

2. Ապթայմի հաշվարկը 'միասնական ժամանակային գոտի, SSOT-ի աջակցությունից։

3. Դեպքերի հետ միասին 'թայմլին, տոմսեր, հետմորտեմներ։

4. Ընդհանուր 'սեփական ձախողումները, պրովայդերը, տարանցումը, DDoS-ը, վերանորոգման աշխատանքները։

5. SLA պարիմետրը 'օգտագործողի փորձը (E2E) vs-ը մեկ կոնկրետ API-ն է։

6. Հաշվետվություններ ՝ ամսական/եռամսյակի զեկույցը 'փաստ, շեղումներ, փոխհատուցում (եթե կիրառելի է), ուղղիչ միջոցներ։

9) Վերարտադրության ստուգում

Բանաձևի տարբերակումը 'Git-ռեպոզորիա SQL/PromQL/dok-հատկություններով։

Unit-թեստերը մետրիկ են 'wwww.nthetic տվյալների վրա (edge-cass ՝ բաց թողնեք, դուբլի, ամսաթվերի սահմանները)։

Interneage 'dashborda ետ սկզբնական բրազիլացիների և իրադարձությունների հետ։

Սարքավորումը 'տվյալների սառեցումը խցիկի վրա, որպեսզի փետուրի հաշվարկները համեմատվեն։

10) Ստուգման նմուշները (sampling)

Ամեն օր 10-20 իրադարձություններ հիմնական հոսքերի վրա (դեպոզիտ/տոկոսադրույք/KUS) - SDH-ի ուղու ձեռքով շրջանակը։

Ամեն շաբաթ '1 տոկոսը sample համեմատելու համար «առցանց vs MSH» ագրեգատներով։

Ամեն ամիս, SLA էֆեկտով կոդավորման փաթեթը մանրամասն վերակառուցում է։

Նմուշառման ակտը (հակիրճ)


Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11) Dashbords աուդիտ և ծանուցում

Մեկ բառակապաշար 'գլոսարիան հենց դաշբորդի վրա է։

Օրինագծերի/լիմենտների նույնականացումները 'շեղումների պատճառը տեսնելու համար։

«Մինչև/հետո» համեմատությունը 'ռեգրեսիայի ավտոմատ վահանակները։

Դուբլի/տարբերությունները '«երկու տարբեր p99» հայտնաբերումը բանաձևերի/պատուհանների աջ է։

Մրցույթի հասանելիությունը 'իրավունքներ, պահեստներ, հղումների/տարբերակների վերահսկողություն։

12) Փոփոխությունների կառավարումը մետրերում

RSA գործընթացը 'բանաձևի/պատուհանի/աղբյուրի փոփոխությունը RFC-ի միջոցով' SLA/հաշվետվության վրա ազդեցության գնահատմամբ։

«Expand www.migrate www.ract» խմբակցությունը, ժամանակավորապես երկու տարբերակները, համեմատում ենք, ապա անջատում ենք հինը։

Հաղորդակցություն 'նախապես տեղեկացնել ապրանքը/բիզնեսը արժեքների փոփոխության մասին «նոր մեթոդով»։

13) iGaming/fintech առանձնահատկությունները

Պահանջարկի պիկի 'մետրերը պետք է դիմակայեն պայթուցիկ բեռներին (ագրեգացիաները չեն «կպչում»)։

Պրովայդերներ ՝ SLA-ն կախված է OLA վենդորներից, որոնք պետք է պահեն իրենց զեկույցները, կոդերի արձանները և քվոտաները։

Արժեքը '«cost _ per _ 1k _ calls» և «հաջողության արժեքը» պարտադիր վահանակներ են։

Անտիֆրոդը/ռիսկը 'ուշացման զգայունությունը և «կեղծ աշխատանքը» մետրիկը։

14) Dashbords 2019 (նվազագույն հավաքածու)

Metrics Health: completeness/timeliness/duplicates, ingest-lag, ошибки ETL.

SLO/SLA Evidence: SLO հաշվարկված, իրական SLA, բացառություններ, հղում միջադեպերին/գործողություններին։

Online vs MSH Compare: p95/p99/Success Rate, շեղումներ և միտումներ։

Vendor SLA: aptaim/քվոտա/tim-uta/արժեքը պրովայդերների կտրվածքում։

Releault Impact: ռեգրեսիա metric-ից հետո/ներառելուց հետո։

15) Chek-Show (վիրահատական)

  • Metric/SLO/SLA-ի կատալոգը սեփականատերերի և բանաձևերի հետ արդիական է։
  • SSOT-ը նախատեսված է յուրաքանչյուր զեկույցի/վահանակի համար։
  • Junit-թեստերը կանաչ բանաձևեր են, www.plins-ը տեղադրված է։
  • Ալերտները տվյալների որակի համար ակտիվ են (completeness/timeliness/duplicates)։
  • «Onronvs MSH» թույլատրելի շեմի տարբերությունը (օրինակ ՝ 242%)։
  • SLA բացառությունների իրականացումը հետևյալն է.
  • Ստուգման նմուշներ կատարվեցին և կազմվեցին ակտեր։
  • Բանաձևերի բոլոր փոփոխությունները անցան RFC և միգրացիան։

16) Օրինակներ (բեկորներ)

PromQL-ը p99-ի համեմատությունն է թողարկումից հետո


api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})

SQL-ն իրադարձությունների լիարժեքության վերահսկումն է

sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;

Alertmanager-ի կանոնը կոնտուրների տարբերությունն է


ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17) Anti-patterna

Երկու տարբեր բանաձևեր տարբեր վահանակների վրա։

Մետրիկի փոփոխությունը առանց տեղեկատվության և ծանուցման 'OKR/SLA-ում «ցատկ»։

Տեղական Express-ում զեկույցները որպես «ճշմարտություն» (անսահման)։

Ժամացույցի գոտիների և օրացույցների խառնուրդը SLA հաշվարկներում։

SLA բացառությունները փաստագրական չեն։

Ոչ մի ալտերտ, որի որակը գնացող է։

18) KPI հասունությունը

Drift Rate Online-ը MSH-ն է (նպատակը 242 տոկոսն է)։

Metrance Health Uptime (ժամանակը առանց ingest/ETL դեգրադացիայի)։

Time-to-Fix Express (սխալի վերացման ժամանակը բանաձևում)։

SLA Disport Rate (գործընկերների հետ վիճահարույց դեպքերի հաճախությունը)։

Coverage SLO/SLA (կրիտիկական ճանապարհների մասը ֆորմալ նկարագրված SLO/SLA)։

19) Դերեր և պատասխանատվություն

Մետրիկի սեփականատերը/108: բանաձևը, աղբյուրը, դաշբորդը, ալերտները։

Observability/MSE: SSOT/պլատֆորմը, բանաձևի թեստերը, տվյալների որակի ալտերը։

System/BI: MSH, շարժիչի վերարտադրություն, lineage։

Իրավաբաններ/գործընկեր ղեկավարներ 'SLA պայմանագրեր և բացառություններ։

Դեպրեսիվ մենեջեր 'հեռացում և միացում SLA-ի հետ։

20) Արագ սկիզբը (30 օր)

Շաբաթ 1: Բուլգարիզացիա մետրիկ/SLO/SLA և սեփականատերերի; Նշանակել SSOT։

Շաբաթ 2: միացրեք տվյալների որակի ալտերը և «Onronvs MSH» վահանակը։

Շաբաթը 3 'վերահսկողական նմուշներ անցկացնել, հավասարեցնել p95/p99 պատուհանը։

Շաբաթը 4: ձևավորել RSA գործընթացը բանաձևերի համար, պատրաստել ամսական SLA զեկույցը ծրագրերի հետ։

21) FAQ

Q 'Ի՞ նչ կարելի է համարել SSOT SLA-ի համար։

A 'վերարտադրված հաշվարկներով (PPH) և ամբողջական lineage; առցանց վահանակները 'վերահսկման համար, ոչ իրավաբանական ակտերի համար։

Q 'Ինչպե՞ ս պայքարել «երկու p99» -ի դեմ։

A 'Ուղղել պատուհանը/ագրեգացիայի մեթոդը 105 մետրում, գաղթել վահանակները, ավելացնել ալերտը։

Q 'Ինչպե՞ ս հաշվի առնել պլանային աշխատանքը։

Ա 'Բացառությունների օրացույցը և ինքնաբերաբար դրանք SLA-ից' պայմանագրի կանոններով։ պահել ապացուցող արտեֆակտները։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։