Վիրահատությունները և Կառավարումը կանխագուշակվել են
Կանխատեսում
1) Ինչո՞ ւ է դա անհրաժեշտ
Պատահականները հազվադեպ են «պայթում են ոչ-ոքի»։ Նախքան հրաժարվելը պլատֆորմը ազդանշաններ է տալիս 'արագացված աճը p99, error-բյուջեի դանդաղ այրումը, հերթերի ծալումը, միջին դաունստրիմ հոսքերի աճը, պրովայդերի քվոտան։ Համակարգային կանխատեսումը փոխանցում է "հրդեհի մարումից" արձագանքը "վաղ միջամտության մեջ, նվազեցնելով MTTR, Change Failure Rate-ը և եկամուտների կորուստը։
Նպատակները
Հայտնաբերել նախադեպերի փամփուշտները և ինքնաբերաբար նախաձեռնել կանխարգելիչ գործողություններ։
Նվազեցնել P1/P2 մասնաբաժինը ձախ շարժման միջոցով (pre-incident detrate)։
Ներկառուցել կանխատեսումները ածխաջրածինների, ֆեյլերի և կապիտacity-ապակայունությունների գործընթացներում։
2) Ազդանշանների քարտեզը (lead indicators)
Պլատֆորմ/ինֆրա
Արագացում p95/p99 (գրադիենտ), «պոչերը» ուշացումներ, տատանումների աճ։
Հերթեր/strims 'բարձրացում' «lag» և դրական ածանցյալ lag; HPA-ն առավելագույն է։
BD/kash: «action _ conns/max _ conns», «replection _ lag», «evictions», «cache _ hit»։
Ցանցը ՝ mTSA/handshake սխալները, 5xx/timeout աճը դուրս է գալիս։
Կախվածություն/պրովայդերներ
"wwww.bound _ error _ rate "/" retry _ rate" -ը հատուկ պրովայդերի, "circuit _ open", "corta _ usage> 0։ 9`.
SLA պրովայդեր 'պլանավորված պատուհաններ, քայքայումներ։
Ապրանք/բիզնես
Աննոմալ կոմպոզիցիա (քարոզարշավներ/խաղեր), RPS/TPS ցատկը, տարածաշրջանների/ալիքների անսովոր խառնուրդները։
Դեպոզիտների կոնվերսիան/105 ընկնում է p99 հազար quazi-105-ի աճի ժամանակ։
SLO շերտը
Burn-rate error-բյուջե> շեմն է (օրինակ,> 4 ռուբլիներ 10-15 րոպե)։
SLO-ի հաճախակի փոքր խախտումները (միկրո-դեգրադացիա) որպես մոտակա ձախողման մարկեր։
3) Տվյալների աղբյուրները և վիտրինները
Առցանց հեռուստացույց ՝ Prometheus/OTel (մետրիկներ, լոգներ, թրեյսներ)։
Մրցույթի իրադարձությունները 'թիկետներ/ստատուսներ/հետմորտեմներ (ճշմարտությունը թարգետի համար)։
Պլանը/փոփոխությունների փաստերը 'օրինագծեր, ֆիչեֆլագներ, հյուրանոցներ, պրովայդերների պատուհաններ։
Գրողները ՝ կախվածության քարտեզը, քվոտաները, սեփականատերերը։
MSH նկարները 'միավորներ ուսուցման/վալիդացիայի համար (սինխրոն պատուհան)։
Որակի պահանջները 'ամբողջական 3699 տոկոսը, TZ ժամացույցի/րոպեանոց հավասարեցումը, p95/p99 միասնական սահմանումները։
4) Կանխատեսման մոտեցումները
4. 1 Neparametric/կանոնները (արագ սկիզբը)
Շեմի ալերտները փոփոխության արագության վրա '«der.ru (p99)», «z-score» կարճ պատուհանների համար։
Կոմպոզիտային պայմանները ՝ «lag no + HPA = max + circuit _ open (to =» PMS-X «)»։
SLO-burn-Gatts 'burn-rate> X- ի/kanareks մնացորդները։
4. 2 Անոմալիայի դետեկտիվ
Seasonal baselines (STL/Prophet-նման գաղափարներ), rolling մեդիա + MAD։
Multivariate: Համատեղ անոմալիա 'p99 + retry + open _ circuit + delta "։
Change-point detics: CUSUM/BOCPD-ը միտումները փոխելու համար։
4. 3 ML մոդելներ (supervised)
«Պատահականություն T + K» դասակարգումը։ ըստ նշանների պատուհանի (օրինակ ՝ 10-30 րոպե առաջ)։
Նշաններ ՝ վիճակագրություններ, ածանցյալներ, սեզոնային մնացորդներ, one-hot պրովայդերներ/տարածաշրջաններ, ածխաջրածինների դրոշներ։
Express: «incident 'severity to [P1, P2] կոդ» սահմաններում [t, t + K]։
Intainability: SHAP/Permutation import.ru վստահության և վիրահատության համար։
4. 4 MSE-first հիբրիդ
Մոդելը կանխատեսում է ռիսկի (0-1) ռուսական գործողությունների քաղաքականությունը (ֆիչեֆլագներ/ֆեյլովեր/առաջ-սկեյլ), HITL-ից քննադատության համար։
5) Նշանների նախագծումը (feature ineering)
Սայթաքող պատուհանները (1/5/15 րոպե) 'mean, p95/p99, std, max, slope։
Հարաբերական ցուցանիշները ՝ «p99/baseline _ 1d», «error _ rate _ delta»։
Կոգորթի ֆիչին 'պրովայդեր, տարածք, խաղի/խաղի տեսակը, սարքի ալիքը։
«Բեռի» ֆիչին ՝ RPS, payload size, բաց WS-ի քանակը։
Ստանդարտ ՝ «hpa _ desired/max», «db _ conn _ ratio», «redis _ evictions> 0»։
Իրադարձական դրոշները ՝ «թողարկումը», «10 տոկոսը», «պրովայդերի պատուհանը»։
6) Կանխատեսումների և գործողությունների մեխանիկա
Որոշումների կայացման շղթան
1. Ռիսկի սկորինգը յուրաքանչյուր N վայրկյանում (Payments/Bets/Games/KYC)։
2. Ալերտի քաղաքականությունը
240 ռիսկ։ 8 + ապացուցող ազդանշաններ տիրույթի սեփականատիրոջ page;
0. 6–0. 8. Նախազգուշացում + միջոցներ պատրաստելու համար։
3. Autage (safeguards)
Նախկին սկեյլը (HPA minReplicas), kash-ը, ծանր գործառույթների սահմանափակումը։
անցում դեպի պրովայդեր/երթուղի;
դադար/ռոլբեկ կանարեյկա;
գետերի սահմանափակում դեպի «նեղ» դաունստրիմ։
4. HITL: Մարդը ապացուցում է «բիզնեսի վարքագծի փոփոխություն» մակարդակի միջոցները։
7) Ինտեգրումը ամենօրյա գործընթացներում
Ալգորիթմներ 'կանարեյկայի նախապատմական խաղերը (համեմատությունը «մինչև/հետո» և ռիսկային սկորինգը)։
Ֆեյլովերը 'ավտոմատ պատրաստումը/տաքացնելով ռուսական շարժիչները պրովայդերի ռիսկի ժամանակ։
Capacity: «early uplift», երբ ընկավ headrope-ը և ճամբարների աճը։
Զգուշացումներ 'առանձին ժապավեն «pre-incident» + dashbords-ում։
8) Դիտողությունն ու տաշբորդը
Risk Overview-ը 'և պրովայդերների ռիսկը, միտումները, նշանների ներդրումը։
Lead Signals: top-N առաջնորդների (p99, lag, բաց breakers)։
Actions & Discomes-ը, որը ներառում էր, ազդեցություն p95/error-ի վրա, վերացված միջադեպերը։
Model Health: precision/recall/latency, drift նշաններ, ավտոմեքենաների հաճախությունը։
9) Մարգարեությունների որակը
Recall @ P1/P2 (քննադատական դեպքերի զգայունությունը)։
Precision (ավելի քիչ «կեղծ լանդշաֆտներ»)։
Lead Time (մեդիա «քանի րոպե դեպի փաստ»)։
Intervention Win-rate (դեպքերի մասը, որտեղ գործողությունը նվազեց ռիսկը/ծախսերը)։
Alts Fatigue Index (alerts/փոփոխություն/չել)։
Drift Score (1922։ ուսուցողական ժամանակաշրջանի նշանների բաշխման տարբերությունը)։
Լռելյայն նպատակները ՝ Recall (P1) 240։ 7, Precision ≥ 0. 6, Lead Time-ը միջին է 248-10 ռուբլիա
10) Մոդելի ռիսկերի կառավարումը (ML Ops/Governae)
Տվյալների/կոդի/արտեֆակտների տարբերակումը, վերարտադրումը։
Champion/Challenger: Նոր մոդելը զուգահեռ է, offline/առցանց համեմատություն։
Դրեյֆը ՝ PSI/KL-divergencia, Auto-ցուցակի, alert «հնացած մոդել»։
Invainability: Յուրաքանչյուր որոշման համար պահել նշանների կարևորությունը և հղումը տվյալների վրա։
Անվտանգություն/էթիկա 'հասանելի, PII-դիմակավորում, քաղաքական մեքենաների վերահսկողություն։
11) Կանոնների և քաղաքական օրինակներ
SLO-burn և կանարեյկա (հայեցակարգ)
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
պրովայդերի կոմպոզիտային ռիսկը
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
Lag-փոթորիկը ստրիմինգում
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12) Ներդրման թուղթ (30-60 օր)
- Ազդանշանների և «ճշմարտության» կատալոգը պատահականներով (severity, timlines)։
- Հիմնական գծերը և սեզոնայնությունը հիմնական մետրերի համար (մինչև/թողարկումից հետո)։
- Վաղ ազդանշանների կանոնները (p99, lag, burn-rate)։
- Dashbords Risk/Lead Signals/Actions.
- Ինտեգրումը ֆիչեֆլագների հետ/կանարեյներ, HPA-ի նախկին սկեյլ։
- ML-դասագրքի օդաչուն մեկ աղյուսակում (օրինակ ՝ Payments)։
- HITL քաղաքականությունը և ավտոմատացման ամսագիրը։
- Որակի և ալտերտայի չափումները մոդելի առողջության վրա։
13) Anti-patterna
«Բյուրեղային գնդակներ» 'բարդ ML մոդել առանց հիմնական գծերի և պարզ կանոնների։
Ոչ actionability: Մենք կանխատեսում ենք «վատ», բայց ինքնաբերաբար ոչինչ չենք անում։
Սեզոնայնության/իրադարձությունների օրացույցի (խաղեր/մրցույթներ) անտեսումը կեղծ անհանգստություններ է հայտնում։
Ժամանակի գոտիների խառնուրդը ցույց է տալիս մետրիկ/մետրի սխալ պատուհանները։
Invainability-ի բացակայությունը բացատրում է անվստահությունը, դատապարտման անջատումը թիմերով։
Բոլոր ածխաջրածինների/տարածաշրջանների միակ գլոբալ շեմն է ցածր ճշգրտությունը։
14) Օրինագծերի առանձնահատկությունները (iGaming)
Payments: պրովայդերներ/քվոտաներ, աճը 'retry _ rate "և" circuit _ open "-ը վաղ ֆեյլերը։
Bets 'գործակիցների նորարարման ուշացում, WS-fan-uta աճը բացատրվում է տարածության սահմանաչափով։
Games/International: World World: Studions-ը բացատրում է UI/kashi-ի դեգրադացիան։
KYC/AML 'webhook ձգձգումներ, veriae-ի հերթեր և հետաձգված վերամշակում։
15) Մետրիկի և ալերտների օրինակներ (գաղափարներ)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16) KPI կանխատեսումների ծրագիրը
Pre-Incident Detault Rate (կանխված/չարտոնված միացությունների մասնաբաժինը)։
Avg Lead Time-ը մինչև 2019 թվականը։
Reduction in P1/P2 կվ/քմ։
MTTR (ակնկալվում է գնումը վաղ կոնտեքստի միջոցով)։
False Alarm Rate/Alts Fatigue (կայուն)։
Cost Avoidae (կանխված վճարների/տուգանքների գնահատումը)։
17) Արագ սկսելը (բաղադրատոմսը)
1. Միացրեք գրադիենտ կանոնները p99/lag և SLO-burn;
2. Ավելացրեք կոմպոզիտային պայմանները պրովայդերների համար։
3. Միացրեք նախատիպը ֆիչեֆլագների և սկեյլի հետ։
4. Զեկույցը «կանխատեսումը վերջնական ազդեցություն ունի»։
5. ML օդաչուն մեկ ենթախմբում։ մեծացրեք Precision/Recall-ի աճից հետո։
18) FAQ
Q 'Ինչու՞ սկսել առանց ML-ի։
A: Սեզոնային հիմնական գծերը + գրադիենտ + կոմպոզիտային կանոնները։ Սա տալիս է Recall-ի նկատելի աճը առանց դժվարությունների։
Q 'Ինչպե՞ ս չխանգարել ֆոլս-պոզիտիվներին։
A 'Միավորել ազդանշանները, մուտքագրել հիստերեմիա և հաստատել ժամանակը, տեղադրել per-tomen/տարածաշրջանի շեմերը, գնահատել Precision և Alts Fatigue-ը։
Q 'Ո՞ ր գործողություններն են առաջին հերթին ավտոմատացնել։
A: Ապահով և շրջադարձային 'skayl, casha/dedation, դադար/rollbek canarake, պրովայդերի անցում հաստատված ազդանշաններով։