Վիրահատությունները և Կառավարումը կանխագուշակվել են

Կանխատեսում

1) Ինչո՞ ւ է դա անհրաժեշտ

Պատահականները հազվադեպ են «պայթում են ոչ-ոքի»։ Նախքան հրաժարվելը պլատֆորմը ազդանշաններ է տալիս 'արագացված աճը p99, error-բյուջեի դանդաղ այրումը, հերթերի ծալումը, միջին դաունստրիմ հոսքերի աճը, պրովայդերի քվոտան։ Համակարգային կանխատեսումը փոխանցում է "հրդեհի մարումից" արձագանքը "վաղ միջամտության մեջ, նվազեցնելով MTTR, Change Failure Rate-ը և եկամուտների կորուստը։

Նպատակները

Հայտնաբերել նախադեպերի փամփուշտները և ինքնաբերաբար նախաձեռնել կանխարգելիչ գործողություններ։

Նվազեցնել P1/P2 մասնաբաժինը ձախ շարժման միջոցով (pre-incident detrate)։

Ներկառուցել կանխատեսումները ածխաջրածինների, ֆեյլերի և կապիտacity-ապակայունությունների գործընթացներում։

2) Ազդանշանների քարտեզը (lead indicators)

Պլատֆորմ/ինֆրա

Արագացում p95/p99 (գրադիենտ), «պոչերը» ուշացումներ, տատանումների աճ։

Հերթեր/strims 'բարձրացում' «lag» և դրական ածանցյալ lag; HPA-ն առավելագույն է։

BD/kash: «action _ conns/max _ conns», «replection _ lag», «evictions», «cache _ hit»։

Ցանցը ՝ mTSA/handshake սխալները, 5xx/timeout աճը դուրս է գալիս։

Կախվածություն/պրովայդերներ

"wwww.bound _ error _ rate "/" retry _ rate" -ը հատուկ պրովայդերի, "circuit _ open", "corta _ usage> 0։ 9`.

SLA պրովայդեր 'պլանավորված պատուհաններ, քայքայումներ։

Ապրանք/բիզնես

Աննոմալ կոմպոզիցիա (քարոզարշավներ/խաղեր), RPS/TPS ցատկը, տարածաշրջանների/ալիքների անսովոր խառնուրդները։

Դեպոզիտների կոնվերսիան/105 ընկնում է p99 հազար quazi-105-ի աճի ժամանակ։

SLO շերտը

Burn-rate error-բյուջե> շեմն է (օրինակ,> 4 ռուբլիներ 10-15 րոպե)։

SLO-ի հաճախակի փոքր խախտումները (միկրո-դեգրադացիա) որպես մոտակա ձախողման մարկեր։

3) Տվյալների աղբյուրները և վիտրինները

Առցանց հեռուստացույց ՝ Prometheus/OTel (մետրիկներ, լոգներ, թրեյսներ)։

Մրցույթի իրադարձությունները 'թիկետներ/ստատուսներ/հետմորտեմներ (ճշմարտությունը թարգետի համար)։

Պլանը/փոփոխությունների փաստերը 'օրինագծեր, ֆիչեֆլագներ, հյուրանոցներ, պրովայդերների պատուհաններ։

Գրողները ՝ կախվածության քարտեզը, քվոտաները, սեփականատերերը։

MSH նկարները 'միավորներ ուսուցման/վալիդացիայի համար (սինխրոն պատուհան)։

Որակի պահանջները 'ամբողջական 3699 տոկոսը, TZ ժամացույցի/րոպեանոց հավասարեցումը, p95/p99 միասնական սահմանումները։

4) Կանխատեսման մոտեցումները

4. 1 Neparametric/կանոնները (արագ սկիզբը)

Շեմի ալերտները փոփոխության արագության վրա '«der.ru (p99)», «z-score» կարճ պատուհանների համար։

Կոմպոզիտային պայմանները ՝ «lag no + HPA = max + circuit _ open (to =» PMS-X «)»։

SLO-burn-Gatts 'burn-rate> X- ի/kanareks մնացորդները։

4. 2 Անոմալիայի դետեկտիվ

Seasonal baselines (STL/Prophet-նման գաղափարներ), rolling մեդիա + MAD։

Multivariate: Համատեղ անոմալիա 'p99 + retry + open _ circuit + delta "։

Change-point detics: CUSUM/BOCPD-ը միտումները փոխելու համար։

4. 3 ML մոդելներ (supervised)

«Պատահականություն T + K» դասակարգումը։ ըստ նշանների պատուհանի (օրինակ ՝ 10-30 րոպե առաջ)։

Նշաններ ՝ վիճակագրություններ, ածանցյալներ, սեզոնային մնացորդներ, one-hot պրովայդերներ/տարածաշրջաններ, ածխաջրածինների դրոշներ։

Express: «incident 'severity to [P1, P2] կոդ» սահմաններում [t, t + K]։

Intainability: SHAP/Permutation import.ru վստահության և վիրահատության համար։

4. 4 MSE-first հիբրիդ

Մոդելը կանխատեսում է ռիսկի (0-1) ռուսական գործողությունների քաղաքականությունը (ֆիչեֆլագներ/ֆեյլովեր/առաջ-սկեյլ), HITL-ից քննադատության համար։

5) Նշանների նախագծումը (feature ineering)

Սայթաքող պատուհանները (1/5/15 րոպե) 'mean, p95/p99, std, max, slope։

Հարաբերական ցուցանիշները ՝ «p99/baseline _ 1d», «error _ rate _ delta»։

Կոգորթի ֆիչին 'պրովայդեր, տարածք, խաղի/խաղի տեսակը, սարքի ալիքը։

«Բեռի» ֆիչին ՝ RPS, payload size, բաց WS-ի քանակը։

Ստանդարտ ՝ «hpa _ desired/max», «db _ conn _ ratio», «redis _ evictions> 0»։

Իրադարձական դրոշները ՝ «թողարկումը», «10 տոկոսը», «պրովայդերի պատուհանը»։

6) Կանխատեսումների և գործողությունների մեխանիկա

Որոշումների կայացման շղթան

1. Ռիսկի սկորինգը յուրաքանչյուր N վայրկյանում (Payments/Bets/Games/KYC)։

2. Ալերտի քաղաքականությունը

240 ռիսկ։ 8 + ապացուցող ազդանշաններ տիրույթի սեփականատիրոջ page;

0. 6–0. 8. Նախազգուշացում + միջոցներ պատրաստելու համար։

3. Autage (safeguards)

Նախկին սկեյլը (HPA minReplicas), kash-ը, ծանր գործառույթների սահմանափակումը։

անցում դեպի պրովայդեր/երթուղի;

դադար/ռոլբեկ կանարեյկա;

գետերի սահմանափակում դեպի «նեղ» դաունստրիմ։

4. HITL: Մարդը ապացուցում է «բիզնեսի վարքագծի փոփոխություն» մակարդակի միջոցները։

7) Ինտեգրումը ամենօրյա գործընթացներում

Ալգորիթմներ 'կանարեյկայի նախապատմական խաղերը (համեմատությունը «մինչև/հետո» և ռիսկային սկորինգը)։

Ֆեյլովերը 'ավտոմատ պատրաստումը/տաքացնելով ռուսական շարժիչները պրովայդերի ռիսկի ժամանակ։

Capacity: «early uplift», երբ ընկավ headrope-ը և ճամբարների աճը։

Զգուշացումներ 'առանձին ժապավեն «pre-incident» + dashbords-ում։

8) Դիտողությունն ու տաշբորդը

Risk Overview-ը 'և պրովայդերների ռիսկը, միտումները, նշանների ներդրումը։

Lead Signals: top-N առաջնորդների (p99, lag, բաց breakers)։

Actions & Discomes-ը, որը ներառում էր, ազդեցություն p95/error-ի վրա, վերացված միջադեպերը։

Model Health: precision/recall/latency, drift նշաններ, ավտոմեքենաների հաճախությունը։

9) Մարգարեությունների որակը

Recall @ P1/P2 (քննադատական դեպքերի զգայունությունը)։

Precision (ավելի քիչ «կեղծ լանդշաֆտներ»)։

Lead Time (մեդիա «քանի րոպե դեպի փաստ»)։

Intervention Win-rate (դեպքերի մասը, որտեղ գործողությունը նվազեց ռիսկը/ծախսերը)։

Alts Fatigue Index (alerts/փոփոխություն/չել)։

Drift Score (1922։ ուսուցողական ժամանակաշրջանի նշանների բաշխման տարբերությունը)։

Լռելյայն նպատակները ՝ Recall (P1) 240։ 7, Precision ≥ 0. 6, Lead Time-ը միջին է 248-10 ռուբլիա

10) Մոդելի ռիսկերի կառավարումը (ML Ops/Governae)

Տվյալների/կոդի/արտեֆակտների տարբերակումը, վերարտադրումը։

Champion/Challenger: Նոր մոդելը զուգահեռ է, offline/առցանց համեմատություն։

Դրեյֆը ՝ PSI/KL-divergencia, Auto-ցուցակի, alert «հնացած մոդել»։

Invainability: Յուրաքանչյուր որոշման համար պահել նշանների կարևորությունը և հղումը տվյալների վրա։

Անվտանգություն/էթիկա 'հասանելի, PII-դիմակավորում, քաղաքական մեքենաների վերահսկողություն։

11) Կանոնների և քաղաքական օրինակներ

SLO-burn և կանարեյկա (հայեցակարգ)


policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments

պրովայդերի կոմպոզիտային ռիսկը


risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features

Lag-փոթորիկը ստրիմինգում


if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) Ներդրման թուղթ (30-60 օր)

Ազդանշանների և «ճշմարտության» կատալոգը պատահականներով (severity, timlines)։
Հիմնական գծերը և սեզոնայնությունը հիմնական մետրերի համար (մինչև/թողարկումից հետո)։
Վաղ ազդանշանների կանոնները (p99, lag, burn-rate)։
Dashbords Risk/Lead Signals/Actions.
Ինտեգրումը ֆիչեֆլագների հետ/կանարեյներ, HPA-ի նախկին սկեյլ։
ML-դասագրքի օդաչուն մեկ աղյուսակում (օրինակ ՝ Payments)։
HITL քաղաքականությունը և ավտոմատացման ամսագիրը։
Որակի և ալտերտայի չափումները մոդելի առողջության վրա։

13) Anti-patterna

«Բյուրեղային գնդակներ» 'բարդ ML մոդել առանց հիմնական գծերի և պարզ կանոնների։

Ոչ actionability: Մենք կանխատեսում ենք «վատ», բայց ինքնաբերաբար ոչինչ չենք անում։

Սեզոնայնության/իրադարձությունների օրացույցի (խաղեր/մրցույթներ) անտեսումը կեղծ անհանգստություններ է հայտնում։

Ժամանակի գոտիների խառնուրդը ցույց է տալիս մետրիկ/մետրի սխալ պատուհանները։

Invainability-ի բացակայությունը բացատրում է անվստահությունը, դատապարտման անջատումը թիմերով։

Բոլոր ածխաջրածինների/տարածաշրջանների միակ գլոբալ շեմն է ցածր ճշգրտությունը։

14) Օրինագծերի առանձնահատկությունները (iGaming)

Payments: պրովայդերներ/քվոտաներ, աճը 'retry _ rate "և" circuit _ open "-ը վաղ ֆեյլերը։

Bets 'գործակիցների նորարարման ուշացում, WS-fan-uta աճը բացատրվում է տարածության սահմանաչափով։

Games/International: World World: Studions-ը բացատրում է UI/kashi-ի դեգրադացիան։

KYC/AML 'webhook ձգձգումներ, veriae-ի հերթեր և հետաձգված վերամշակում։

15) Մետրիկի և ալերտների օրինակներ (գաղափարներ)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) KPI կանխատեսումների ծրագիրը

Pre-Incident Detault Rate (կանխված/չարտոնված միացությունների մասնաբաժինը)։

Avg Lead Time-ը մինչև 2019 թվականը։

Reduction in P1/P2 կվ/քմ։

MTTR (ակնկալվում է գնումը վաղ կոնտեքստի միջոցով)։

False Alarm Rate/Alts Fatigue (կայուն)։

Cost Avoidae (կանխված վճարների/տուգանքների գնահատումը)։

17) Արագ սկսելը (բաղադրատոմսը)

1. Միացրեք գրադիենտ կանոնները p99/lag և SLO-burn;

2. Ավելացրեք կոմպոզիտային պայմանները պրովայդերների համար։

3. Միացրեք նախատիպը ֆիչեֆլագների և սկեյլի հետ։

4. Զեկույցը «կանխատեսումը վերջնական ազդեցություն ունի»։

5. ML օդաչուն մեկ ենթախմբում։ մեծացրեք Precision/Recall-ի աճից հետո։

18) FAQ

Q 'Ինչու՞ սկսել առանց ML-ի։

A: Սեզոնային հիմնական գծերը + գրադիենտ + կոմպոզիտային կանոնները։ Սա տալիս է Recall-ի նկատելի աճը առանց դժվարությունների։

Q 'Ինչպե՞ ս չխանգարել ֆոլս-պոզիտիվներին։

A 'Միավորել ազդանշանները, մուտքագրել հիստերեմիա և հաստատել ժամանակը, տեղադրել per-tomen/տարածաշրջանի շեմերը, գնահատել Precision և Alts Fatigue-ը։

Q 'Ո՞ ր գործողություններն են առաջին հերթին ավտոմատացնել։

A: Ապահով և շրջադարձային 'skayl, casha/dedation, դադար/rollbek canarake, պրովայդերի անցում հաստատված ազդանշաններով։

Վիրահատությունները և Կառավարումը կանխագուշակվել են

Կանխատեսում

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով