Խելքի և արտադրողականության վերլուծությունը
1) Նպատակը և արժեքը
Smen-ի վերլուծաբանն այն համակարգն է, որը վերահսկում է 24-7-2019 կանխատեսելի, որը հաստատում է SLO-ի ծածկույթը, բացահայտում է նեղ տեղեր (գիշերային արցունքներ, ծանրաբեռնված ածխաջրածիններ), կանխում է այրումը և բարձրացնում է հանդովերների որակը։ IGaming-ի համար դա ուղղակիորեն ազդում է ավանդների/ցանցերի արագության, KYC/AML ժամանակահատվածների և հեղինակության վրա։
2) Taksonomia metric
2. 1 Ծածկույթ և պատրաստակամություն
Coverage Rate-ը ժամացույցի տոկոսն է ամբողջական բաղադրությամբ (դերի/www.ru/տարածաշրջանի)։
On-Call Readiness-ը հերթափոխի մասն է նշանակված IC/CL-ի և վալիդային կոնտակտների հետ։
Handover SLA-ը փոխանցման պատուհանի (10-15 րոպե) և չեկի թերթիկի պահպանումն է։
2. 2 Արձագանքի և վերականգնման արագություն
MTTA/MTTR (Day/Swing/Night-ի ծառայություններով) 'մեդիա, p90։
Detault Lead-ը SLI-դեգրադացիայի և առաջին գործողությունների միջև լագն է։
Post-Releant Monitoring Time-ը իրական դիտարկումն է։
2. 3 Հերթափոխի փոխանցման որակը
Handover Systement Rate-ը չեկի թերթիկի չնչին կետերն են։
Drift-ը war-rum, ITSM-ի և կարգավիճակ-ալիքի միջև փաստերի տարբերությունն է։
Action Carryover-ը առաջադրանքների մի մասն է, որոնք «փոխեցին» առանց սեփականատիրոջ/ETA-ի։
2. 4 Մոսկվա և հոգնածություն
Pager Fatigue: Alerts/chel/շաբաթ, գիշերային լանդշաֆտներ, R1/chel/փոփոխություն։
Escalation Dronity-ը մի մասն է, որը հասել է L2/L3 (runbook-fix L1)։
Idle vs. Busy Ratio 'vs. սպասման արդյունավետ բեռնման ժամանակը։
2. 5 Արդյունավետություն և ավտոմատացում
Express-Fix Rate-ը ավտոմեքենաների/բոտերի լուծված միջադեպեր են։
Runbook Usage-ը ալերտների տոկոսն է, որոնք փակված են ստանդարտ սցենարներով։
First Coract Resolution (FCR) - L1 մակարդակում առանց էսկալացիայի։
Mean Time Between Incidents (MTBI) - տիրույթի/արցունքների կայունությունը։
2. 6 Արդարություն և կայունություն
Fox-Express Index-ը մարդկանց գիշերվա/շաբաթվա հավասարությունն է։
Replacium SLA-ը փոխարինող է, որը ապացուցված է 48 ժամ մինչև հերթափոխը։
Training Coverage-ը օմբուդսմենի մի մասն է 'shadow-slot-ի համար։
2. 7 Բիզնես կապեր
SLO Impact Score-ը, որքա՞ ն ժամանակ էր SLO-ն պահում կանաչ գոտում։
Revenue at Risk (proxy) - P1/P2-ի կորցրած եկամուտների գնահատումը հերթափոխում։
Partner Latency/Declines-ը PMS/KYC գործընկերների ներդրումն է փոփոխության պատահականության մեջ։
3) Տվյալների մոդել
3. 1 Իրադարձությունների հացահատիկ
shift _ event: սկիզբը/վերջը, կազմը, դերերը (IC/CL/L1/L2), տարածաշրջանը, ֆորումը։
alment _ event: ազդանշան, առաջնահերթություն, սեփականատեր, շարժիչ, runbook/ավտոմատացում։
incident _ event: P1-P4, թայմլիններ, IC/CL, կարգավիճակ-հրատարակություններ։
handover _ entk: չեկ թերթիկի նշաններ + թերություններ/մեկնաբանություններ։
releance _ watch: Դիտարկման պատուհաններ, գեյտեր, Avto-antats։
worklog: արդյունավետ րոպեներ (ախտորոշում, ֆիքսներ, comm-apdayts, post-mortem)։
fatigue _ signal 'լանդշաֆտների/գիշերվա հաճախականությունը, ժամացույցները։
3. 2 Սխեմա (պարզեցված)
Պահեստավորման տարբերակները 'իրադարձական lake (parquet/iceberg) + RTH/TSDB-ում։
Ключи: `timestamp`, `tenant`, `region`, `environment`, `domain`, `role`, `severity`.
PII քաղաքականությունը 'միայն ագրեգատներն ու կեղծանունները։ e-mail/ID դիմակավորված են։
4) Տվյալների հավաքումը (ETL)
1. ChatOps/bot: «/handover », «/incident», «/runbook »ռուսական WORM ամսագիր։
2. ITSM '108/tikets արձաններ, կապեր var-rums հետ։
3. Metrics API: SLI/SLO (auth-success, bet→settle p99, error-rate), KRI (queue lag, PSP declines).
4. Պլանավորողը է 'օրացույցներ, փոխարինումներ, դերեր, shadow։
5. CI/CD: ալյումինե, դիտարկման պատուհաններ, ավտոմեքենաներ։
ETL-ն նորմալիզացնում է, ավելացնում է «shift _ slot» (Day/Swing/Night), հաշվարկում է derived-մետրիկները (MTTA/MTTR, Fox-Internet)։
5) Դաշբորդի
5. 1 Exec (ակնարկ շաբաթական/ամիս)
CFR, MTTR, Auto-Fix Rate, SLO Impact, Revenue-at-Risk (proxy).
Փղերի և առյուծների տեղափոխման քարտեզը (ջերմային)։
5. 2 Ops/MSE (ամեն օր)
Real-tim վահանակ 'բաց P1-P4, burn-rate, հերթեր/վերարտադրություն, guardrails։
Հենդովեր քարտեզը չեկի և թերությունների կարգավիճակը։
Fatigue-վահանակ 'լանդշաֆտներ/չել, գիշեր/մարդ (վերջին 4 շաբաթ), նախազգուշացումներ։
5. 3 Team/Domain
MTTA/MTTR-ը, FCR, Runbook Usage-ը, L2/L3 էսկալացիայի մասը։
Fox-Express-ը և Replacom SLA-ը հատուկ թիմի համար։
6) Բանաձևերն ու շեմերը
Coverage Rate = ծածկված ժամացույցներ/168։ Նպատակը 99 տոկոսն է։
Handover SLA =% men, որտեղ փոխանցումը կատարվում է, և չեկի թերթիկը փակված է 3,15 րոպե (նպատակը 3695 տոկոսն է)։
Pager Fatigue (1934) : p95 alerts/chel 210; նախազգուշացում> p90։
Fox-Express Index = 1 մգ (108 գիշեր/target _ գիշեր)։ Նպատակը 240 է։ 8.
Media-Fix Rate-ը L1-ի 40 տոկոսն է եռամսյակի համար (նպատակը կախված է հասունությունից)։
Runbook Usage-ը 70 տոկոսն է կրկնվող ալտերի համար (առաջին 10 ազդանշանները)։
Վերահսկողական քարտեզները (X-MR, p-charts) MTTA/MTTR և Medical Rate-ի համար։ ալտերտները, երբ դուրս են գալիս վերահսկողական սահմաններից դուրս։
7) Վերլուծական մեթոդներ
Աննոմալիա ՝ STL/ESD/CUSUM ալերտամների և MTTA/MTTR-ի վրա, ներշնչել օտարերկրյա և պատճառները (թողարկումը, պրովայդերը)։
Բեռի կանխատեսումը 'Prophet/ARIMA ալտերտերի և P1/P2-ի վրա FTE պլանավորումը։
Արդյունքի կարգավորումը 'uplift-մոդելը գործընթացներում (օրինակ, նոր hendover-ձևանմուշ) MTTR-ն։
Ստուգողական փորձարկումներ ՝ A/B ներքին գործընթացներում (չեկի թերթ տարբերակը, նոր runbook)։
Կոգորթի վերլուծություն 'նորեկների արտադրողականությունը (shadow no solo) vs. փորձառու։
8) Մոսկվան
Պատահարը 'փոխակերպման մետրերը, հիշեցնում է անսովոր հանդովերի մասին, սկսում է ռետրո։
Rele.ru-պորտալը 'կապում է հիբրիդային պատուհանները բեռի պիկի հետ։ 07-pause կարմիր SLO-ում։
Metrance API: պատրաստ SLO-wew + exemplars (trace _ id) RCA-ի համար։
HR/PTO 'ուսման գործոնները (shrinkage) բացատրում են fox-2019 պլանավորումը և վերլուծությունը։
9) Քաղաքականություն և RACI
Ops Analytics Owner (MSE/Platform): տվյալների մոդելը, dashbords, ճշգրտությունը։
Express Owners: Հիբրիդային ազդանշանների մեկնաբանություն, բարելավման պլաններ։
Duty Live: KPI/KRI շաբաթական վերլուծություն, փղերի հավասարակշռություն։
Compliance/Sec 'PII/SoD-ի պահպանումը հեռուստատեսության և զեկույցներում։
Training Lead: Onbording պլանները վերլուծության եզրակացություններից։
10) Արտեֆակտների օրինակները
10. 1 Metric (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 Հարցման օրինակ (SQL ագրեգատ)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 Hendover chek-slack (որակի ազդանշաններ)
SLO/SLI կամարը կցված է
Բաց պատահարները ունեն սեփականատերեր/ETA
Պլանավորված աշխատանք/ֆորումներ կապված են
Պրովայդերական ռիսկերը գրանցվել են
Կոմմ-չեռնիվիստները պատրաստ են
On-call շփումները արդիական են
Watchlist նորարարված
11) Ռիսկերի և բարելավումների կառավարումը
KRI 'DLQ/queue-lag աճը գիշերային փղի վրա, FCR <108 անկումը, Peter Drift-ի աճը։
Բարելավման պլանը 'շաբաթական Ops պլանը սեփականատերերի/ETA-ի հետ առաջին 3 ձախողումների ժամանակ։
Կարգապահության փոստ-մորտը խելացի է 'ռետրո' հենդովերների թերություններով և ալերտների ֆլամպինգով։
Պրոցեսորային A/B 'ստուգել նոր բաղադրիչների ազդեցությունը MTTR/J-Fix-ի վրա։
12) KPI/OKR օրինակներ (թաղամաս)
KR1: MTTR P1 (median) պատրաստված է 22 րոպեից մինչև 15 ռուբլիներ
KR2: Handover SLA 2495 տոկոսը երեք թերթերում։
KR3: Intel-Fix Rate-ը 45 տոկոսն է լավագույն 10 ազդանշանային կանոնների համար։
KR4: Pager Fatigue p95-ը 20 տոկոսով (ալերտինգի օպտիմիզացումից հետո)։
KR5: Fair-Share Index ≥ 0. 85 բոլոր թիմերում։
13) Ճանապարհի քարտեզը (6-10 շաբաթ)
Մոսկվան։ 1-2 'իրադարձությունների սխեմաները, ETL բոտից/ITSM/Metrance API, առաջին metric կատալոգը, հիմնական dashbords։
Մոսկվան։ 3-4 'վերահսկողական քարտեզներ և շեմեր, fatigue վահանակ, handover որակը, թողարկումների հետ կապը։
Մոսկվան։ 5-6 'բեռի կանխատեսումը (արցունքներ/սուլֆատներ), fox-2019 և replacom-վերլուծությունը։
Մոսկվան։ 7-8 'մեքենա-խորհուրդ (որ runbooks ավտոմատիզացնել), ROI avto-fix հաշվետվությունները, ռետրո ձևանմուշները։
Մոսկվան։ 9-10 'փորձարկումներ գործընթացներում (A/B չեկ թերթ), KPI-ը Exec-պանելներում, թիմերի ուսուցում։
14) Անտիպատերնի
Հաշվել «փոփոխության հաջողությունը» միայն փակված տիկետների քանակով (առանց MTTR/SLO կոնտեքստի)։
Անտեսել հանդովեր թերությունները («և այդպես պարզ»)։
Մետրերը առանց նորմալիզացիայի ծավալի/սեզոնային պիկի։
Peronift-ը և «մարդկանց վարկանիշները» առանց հաշվի առնելու բարդությունները/մուտքային պայմանները։
Fox-2019-ի բացակայությունը բացատրում է այրումը և սխալների աճը։
Զրոյական հարաբերակցությունը թողարկումների/փորձերի հետ կեղծ եզրակացություններ է տալիս։
Տվյալները առանց WORM-2019 և առանց PII քաղաքականության։
Արդյունքը
Ինտենսիվ և արտադրողականության վերլուծությունը ChatOps-ի, ITSM-ի և հեռուստատեսության վերևում գտնվող արտադրողական համակարգն է, KPI/KRI-ի պարզ տաքսոնոմիան, տվյալների ճիշտ մոդելները, տարբեր դերերի, վիճակագրական մեթոդների և SLO/բիզնես ազդեցության հետ կապը։ Այս մոտեցումը հավասարեցնում է բեռը, արագացնում արձագանքը, նվազեցնում է այրումը և կանխատեսելիորեն բարելավում iGaming պլատֆորմի գործողությունների որակը։