GH GambleHub

Խելքի և արտադրողականության վերլուծությունը

1) Նպատակը և արժեքը

Smen-ի վերլուծաբանն այն համակարգն է, որը վերահսկում է 24-7-2019 կանխատեսելի, որը հաստատում է SLO-ի ծածկույթը, բացահայտում է նեղ տեղեր (գիշերային արցունքներ, ծանրաբեռնված ածխաջրածիններ), կանխում է այրումը և բարձրացնում է հանդովերների որակը։ IGaming-ի համար դա ուղղակիորեն ազդում է ավանդների/ցանցերի արագության, KYC/AML ժամանակահատվածների և հեղինակության վրա։


2) Taksonomia metric

2. 1 Ծածկույթ և պատրաստակամություն

Coverage Rate-ը ժամացույցի տոկոսն է ամբողջական բաղադրությամբ (դերի/www.ru/տարածաշրջանի)։

On-Call Readiness-ը հերթափոխի մասն է նշանակված IC/CL-ի և վալիդային կոնտակտների հետ։

Handover SLA-ը փոխանցման պատուհանի (10-15 րոպե) և չեկի թերթիկի պահպանումն է։

2. 2 Արձագանքի և վերականգնման արագություն

MTTA/MTTR (Day/Swing/Night-ի ծառայություններով) 'մեդիա, p90։

Detault Lead-ը SLI-դեգրադացիայի և առաջին գործողությունների միջև լագն է։

Post-Releant Monitoring Time-ը իրական դիտարկումն է։

2. 3 Հերթափոխի փոխանցման որակը

Handover Systement Rate-ը չեկի թերթիկի չնչին կետերն են։

Drift-ը war-rum, ITSM-ի և կարգավիճակ-ալիքի միջև փաստերի տարբերությունն է։

Action Carryover-ը առաջադրանքների մի մասն է, որոնք «փոխեցին» առանց սեփականատիրոջ/ETA-ի։

2. 4 Մոսկվա և հոգնածություն

Pager Fatigue: Alerts/chel/շաբաթ, գիշերային լանդշաֆտներ, R1/chel/փոփոխություն։

Escalation Dronity-ը մի մասն է, որը հասել է L2/L3 (runbook-fix L1)։

Idle vs. Busy Ratio 'vs. սպասման արդյունավետ բեռնման ժամանակը։

2. 5 Արդյունավետություն և ավտոմատացում

Express-Fix Rate-ը ավտոմեքենաների/բոտերի լուծված միջադեպեր են։

Runbook Usage-ը ալերտների տոկոսն է, որոնք փակված են ստանդարտ սցենարներով։

First Coract Resolution (FCR) - L1 մակարդակում առանց էսկալացիայի։

Mean Time Between Incidents (MTBI) - տիրույթի/արցունքների կայունությունը։

2. 6 Արդարություն և կայունություն

Fox-Express Index-ը մարդկանց գիշերվա/շաբաթվա հավասարությունն է։

Replacium SLA-ը փոխարինող է, որը ապացուցված է 48 ժամ մինչև հերթափոխը։

Training Coverage-ը օմբուդսմենի մի մասն է 'shadow-slot-ի համար։

2. 7 Բիզնես կապեր

SLO Impact Score-ը, որքա՞ ն ժամանակ էր SLO-ն պահում կանաչ գոտում։

Revenue at Risk (proxy) - P1/P2-ի կորցրած եկամուտների գնահատումը հերթափոխում։

Partner Latency/Declines-ը PMS/KYC գործընկերների ներդրումն է փոփոխության պատահականության մեջ։


3) Տվյալների մոդել

3. 1 Իրադարձությունների հացահատիկ

shift _ event: սկիզբը/վերջը, կազմը, դերերը (IC/CL/L1/L2), տարածաշրջանը, ֆորումը։

alment _ event: ազդանշան, առաջնահերթություն, սեփականատեր, շարժիչ, runbook/ավտոմատացում։

incident _ event: P1-P4, թայմլիններ, IC/CL, կարգավիճակ-հրատարակություններ։

handover _ entk: չեկ թերթիկի նշաններ + թերություններ/մեկնաբանություններ։

releance _ watch: Դիտարկման պատուհաններ, գեյտեր, Avto-antats։

worklog: արդյունավետ րոպեներ (ախտորոշում, ֆիքսներ, comm-apdayts, post-mortem)։

fatigue _ signal 'լանդշաֆտների/գիշերվա հաճախականությունը, ժամացույցները։

3. 2 Սխեմա (պարզեցված)

Պահեստավորման տարբերակները 'իրադարձական lake (parquet/iceberg) + RTH/TSDB-ում։

Ключи: `timestamp`, `tenant`, `region`, `environment`, `domain`, `role`, `severity`.

PII քաղաքականությունը 'միայն ագրեգատներն ու կեղծանունները։ e-mail/ID դիմակավորված են։


4) Տվյալների հավաքումը (ETL)

1. ChatOps/bot: «/handover », «/incident», «/runbook »ռուսական WORM ամսագիր։

2. ITSM '108/tikets արձաններ, կապեր var-rums հետ։

3. Metrics API: SLI/SLO (auth-success, bet→settle p99, error-rate), KRI (queue lag, PSP declines).

4. Պլանավորողը է 'օրացույցներ, փոխարինումներ, դերեր, shadow։

5. CI/CD: ալյումինե, դիտարկման պատուհաններ, ավտոմեքենաներ։

ETL-ն նորմալիզացնում է, ավելացնում է «shift _ slot» (Day/Swing/Night), հաշվարկում է derived-մետրիկները (MTTA/MTTR, Fox-Internet)։


5) Դաշբորդի

5. 1 Exec (ակնարկ շաբաթական/ամիս)

CFR, MTTR, Auto-Fix Rate, SLO Impact, Revenue-at-Risk (proxy).

Փղերի և առյուծների տեղափոխման քարտեզը (ջերմային)։

5. 2 Ops/MSE (ամեն օր)

Real-tim վահանակ 'բաց P1-P4, burn-rate, հերթեր/վերարտադրություն, guardrails։

Հենդովեր քարտեզը չեկի և թերությունների կարգավիճակը։

Fatigue-վահանակ 'լանդշաֆտներ/չել, գիշեր/մարդ (վերջին 4 շաբաթ), նախազգուշացումներ։

5. 3 Team/Domain

MTTA/MTTR-ը, FCR, Runbook Usage-ը, L2/L3 էսկալացիայի մասը։

Fox-Express-ը և Replacom SLA-ը հատուկ թիմի համար։


6) Բանաձևերն ու շեմերը

Coverage Rate = ծածկված ժամացույցներ/168։ Նպատակը 99 տոկոսն է։

Handover SLA =% men, որտեղ փոխանցումը կատարվում է, և չեկի թերթիկը փակված է 3,15 րոպե (նպատակը 3695 տոկոսն է)։

Pager Fatigue (1934) : p95 alerts/chel 210; նախազգուշացում> p90։

Fox-Express Index = 1 մգ (108 գիշեր/target _ գիշեր)։ Նպատակը 240 է։ 8.

Media-Fix Rate-ը L1-ի 40 տոկոսն է եռամսյակի համար (նպատակը կախված է հասունությունից)։

Runbook Usage-ը 70 տոկոսն է կրկնվող ալտերի համար (առաջին 10 ազդանշանները)։

Վերահսկողական քարտեզները (X-MR, p-charts) MTTA/MTTR և Medical Rate-ի համար։ ալտերտները, երբ դուրս են գալիս վերահսկողական սահմաններից դուրս։


7) Վերլուծական մեթոդներ

Աննոմալիա ՝ STL/ESD/CUSUM ալերտամների և MTTA/MTTR-ի վրա, ներշնչել օտարերկրյա և պատճառները (թողարկումը, պրովայդերը)։

Բեռի կանխատեսումը 'Prophet/ARIMA ալտերտերի և P1/P2-ի վրա FTE պլանավորումը։

Արդյունքի կարգավորումը 'uplift-մոդելը գործընթացներում (օրինակ, նոր hendover-ձևանմուշ) MTTR-ն։

Ստուգողական փորձարկումներ ՝ A/B ներքին գործընթացներում (չեկի թերթ տարբերակը, նոր runbook)։

Կոգորթի վերլուծություն 'նորեկների արտադրողականությունը (shadow no solo) vs. փորձառու։


8) Մոսկվան

Պատահարը 'փոխակերպման մետրերը, հիշեցնում է անսովոր հանդովերի մասին, սկսում է ռետրո։

Rele.ru-պորտալը 'կապում է հիբրիդային պատուհանները բեռի պիկի հետ։ 07-pause կարմիր SLO-ում։

Metrance API: պատրաստ SLO-wew + exemplars (trace _ id) RCA-ի համար։

HR/PTO 'ուսման գործոնները (shrinkage) բացատրում են fox-2019 պլանավորումը և վերլուծությունը։


9) Քաղաքականություն և RACI

Ops Analytics Owner (MSE/Platform): տվյալների մոդելը, dashbords, ճշգրտությունը։

Express Owners: Հիբրիդային ազդանշանների մեկնաբանություն, բարելավման պլաններ։

Duty Live: KPI/KRI շաբաթական վերլուծություն, փղերի հավասարակշռություն։

Compliance/Sec 'PII/SoD-ի պահպանումը հեռուստատեսության և զեկույցներում։

Training Lead: Onbording պլանները վերլուծության եզրակացություններից։


10) Արտեֆակտների օրինակները

10. 1 Metric (YAML)

yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"

10. 2 Հարցման օրինակ (SQL ագրեգատ)

sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;

10. 3 Hendover chek-slack (որակի ազդանշաններ)

SLO/SLI կամարը կցված է

Բաց պատահարները ունեն սեփականատերեր/ETA

Պլանավորված աշխատանք/ֆորումներ կապված են

Պրովայդերական ռիսկերը գրանցվել են

Կոմմ-չեռնիվիստները պատրաստ են

On-call շփումները արդիական են

Watchlist նորարարված


11) Ռիսկերի և բարելավումների կառավարումը

KRI 'DLQ/queue-lag աճը գիշերային փղի վրա, FCR <108 անկումը, Peter Drift-ի աճը։

Բարելավման պլանը 'շաբաթական Ops պլանը սեփականատերերի/ETA-ի հետ առաջին 3 ձախողումների ժամանակ։

Կարգապահության փոստ-մորտը խելացի է 'ռետրո' հենդովերների թերություններով և ալերտների ֆլամպինգով։

Պրոցեսորային A/B 'ստուգել նոր բաղադրիչների ազդեցությունը MTTR/J-Fix-ի վրա։


12) KPI/OKR օրինակներ (թաղամաս)

KR1: MTTR P1 (median) պատրաստված է 22 րոպեից մինչև 15 ռուբլիներ

KR2: Handover SLA 2495 տոկոսը երեք թերթերում։

KR3: Intel-Fix Rate-ը 45 տոկոսն է լավագույն 10 ազդանշանային կանոնների համար։

KR4: Pager Fatigue p95-ը 20 տոկոսով (ալերտինգի օպտիմիզացումից հետո)։

KR5: Fair-Share Index ≥ 0. 85 բոլոր թիմերում։


13) Ճանապարհի քարտեզը (6-10 շաբաթ)

Մոսկվան։ 1-2 'իրադարձությունների սխեմաները, ETL բոտից/ITSM/Metrance API, առաջին metric կատալոգը, հիմնական dashbords։

Մոսկվան։ 3-4 'վերահսկողական քարտեզներ և շեմեր, fatigue վահանակ, handover որակը, թողարկումների հետ կապը։

Մոսկվան։ 5-6 'բեռի կանխատեսումը (արցունքներ/սուլֆատներ), fox-2019 և replacom-վերլուծությունը։

Մոսկվան։ 7-8 'մեքենա-խորհուրդ (որ runbooks ավտոմատիզացնել), ROI avto-fix հաշվետվությունները, ռետրո ձևանմուշները։

Մոսկվան։ 9-10 'փորձարկումներ գործընթացներում (A/B չեկ թերթ), KPI-ը Exec-պանելներում, թիմերի ուսուցում։


14) Անտիպատերնի

Հաշվել «փոփոխության հաջողությունը» միայն փակված տիկետների քանակով (առանց MTTR/SLO կոնտեքստի)։

Անտեսել հանդովեր թերությունները («և այդպես պարզ»)։

Մետրերը առանց նորմալիզացիայի ծավալի/սեզոնային պիկի։

Peronift-ը և «մարդկանց վարկանիշները» առանց հաշվի առնելու բարդությունները/մուտքային պայմանները։

Fox-2019-ի բացակայությունը բացատրում է այրումը և սխալների աճը։

Զրոյական հարաբերակցությունը թողարկումների/փորձերի հետ կեղծ եզրակացություններ է տալիս։

Տվյալները առանց WORM-2019 և առանց PII քաղաքականության։


Արդյունքը

Ինտենսիվ և արտադրողականության վերլուծությունը ChatOps-ի, ITSM-ի և հեռուստատեսության վերևում գտնվող արտադրողական համակարգն է, KPI/KRI-ի պարզ տաքսոնոմիան, տվյալների ճիշտ մոդելները, տարբեր դերերի, վիճակագրական մեթոդների և SLO/բիզնես ազդեցության հետ կապը։ Այս մոտեցումը հավասարեցնում է բեռը, արագացնում արձագանքը, նվազեցնում է այրումը և կանխատեսելիորեն բարելավում iGaming պլատֆորմի գործողությունների որակը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։