GH GambleHub

Բեռի և ռիսկերի կանխատեսումը

1) Ինչո՞ ւ է դա անհրաժեշտ

Բեռի և ռիսկերի կանխատեսումը հնարավորություն է տալիս նախօրոք պատրաստել ենթակառուցվածքները և գործընթացները գագաթնակետային իրադարձությունների համար (օրինագծեր, մրցույթներ, գովազդային արշավներ, խաղեր, արձակուրդներ), նվազեցնել բյուջեի հոսքը և փոխակերպումը։ Արդյունքները օգտագործվում են

պլանավորում (capacity planning) և անջատել;

SLO/SLI, ռուսական սխալներ և Ալերտինգի քաղաքական գործիչը։

ածխաջրերի ռազմավարության ընտրություն (canary, blue-green, dark launch);

ռիսկերի կառավարումը 'քայքայման, հերթերի, գործարքների, SLA տուգանքների կանխումը։

2) Հիմնական հասկացությունները

Express (Load) 'ներկայացված իրադարձությունների/գործողությունների ինտենսիվությունը (RPS, TPS, events/sec), ինչպես նաև CPU/RAM/IO/NET սպառումը։

Արտադրողականությունը (Capacity) կայուն հաջողակ արտադրողականություն է սահմանված SLO-ով և արժեքով։

Ռիսկը 'անցանկալի իրադարձության հավանականությունը (SLA-ձախողում, պատահականություն, ընդհատում)։

Վաղ ցուցանիշները 'չափումներ, որոնք աճում են մինչև 108 (latency p95/p99, queue depth, GC pauses, error rate, saturation)։

Ուժի պլանավորումը (Headrope) 'հասանելի տարաների հարաբերակցությունը ներկա բեռի հետ։

3) Տվյալների և չափումների աղբյուրները

Աղբյուրներ ՝ Logs և metrics (Prometheus/OTel), ուղիներ, բիզնես լիվենտներ (Kafka), CDN/WAF/ALB լոգներ, marktech տվյալներ (քարոզարշավներ), իրադարձությունների օրացույցներ, բիլինգ/կոստներ (Finops), ֆիգներ և/laglaga գծեր (Kafka/Rabbit), BD/kashi։

Հիմնական մետրերը

Մոսկվա: RPS/TPS, ակտիվ օգտագործողներ (DAU/MAU), նստաշրջաններ, քայլերի փոխադարձություն։

Արտադրողականությունը ՝ latency p50/p95/p99, throughput, սխալներ (4xx/5xx), timeouts, retries։

Ресурсы: CPU/LoadAvg, RAM/GC, disk IOps/lat, network bw, connection pool usage.

Գծերը ՝ backlog, lag, consumer lag, time-in-queue։

БД: QPS, lock waits, slow queries, replication lag.
Кэши: hit ratio, eviction rate, hot keys.

Բիզնես մակարդակը 'դեպոզիտներ/տոկոսադրույքներ րոպեում, հիբրիդային ձախողումներ, KYC/AML հերթը։

Մոսկվա: SLI/SLO, error budget burn rate (1h/6h/49h)։

4) Կոդավորման հիմնական մոդելները

1. Դետերմինացված և օրացուցային 'ռեգրեսիա հայտնի շարժիչների վրա (ամսաթիվը/ժամանակը, խաղերը, մրցույթները, մարկետինգային-պուլները, գեյոն, ակցիոն թնդանոթները)։

2. Վիճակագրական ՝ սեզոնային/միտում (ARIMA/ESA), արձակուրդների ռեգրեսիա, Prophet-նման մոտեցումներ։

3. ML/ensemble: գրադիենտ բուստինգը/Random Forest/XGBoost/Last GBM; ավելացնում ենք ֆիչին 'եղանակը, փոխարժեքը, սպորտի նորությունները, մրցակցող եբենտները։

4. Խառը 'վիճակագրությունը սեզոնայնության + ML-ի համար էկզոգեն գործոնների համար (քարոզարշավներ, օրինագծեր)։

5. Quoti/քվանալի 'կանխատեսումը ոչ միայն միջին, այլ նաև p90/p95-ի պլանավորման համար։

Մոդելի ելքերը 'RPS/TPS կանխատեսումը և լատենտության/սխալների բաշխումը T + 1h/T + wwww.h/T + 7d/T + 30d վստահելի ընդմիջումներով։

5) Գծեր և սահմաններ ՝ մինի-տեսություն

Լիթլի օրենքը ՝ L = 350W (համակարգում միջին քանակը = ինտենսիվությունը)։

Նեղ տեղեր 'BD/kash/shin/pul/pul API պրովայդերների լիմիտներ։

Saturation: Երբ բեռնվում է> 70-80 տոկոսը, լատինականությունը աճում է ոչ գծային։

Backpressure 'սպառողների պաշտպանությունը ծանրաբեռնվածությունից (լիմիտներ, հերթեր, shed քաղաքականություն, ֆիչի դեգրադացիա)։

6) Տարաների պլանավորումը (Capacity Planning)

«SLO» մեթոդը 'պահանջվող p99-լատինականությունը և թույլատրելի error rate-ը, որ throughput-ը դիմանում է headrope N %-ի ժամանակ։

«Տերմինալից» մեթոդը ՝ «Match LC», «Սև ուրբաթ», «Մեծ մրցաշար» -ը հաստատեց վերին քվանտները + մեկ AZ/հանգույցի հրաժարումը։

«Cost-a.ru» մեթոդը 'ընտրում ենք ԱՄՆ դոլար/RPS կազմաձևը, հաշվի առնելով զեղչերը, ստանդարտները, spot/2019, autoscaling։

Արտեֆակտներ ՝ Capacity Model per ծառայություն, limits և քվոտաներ (API, BD, հերթեր), ռուսական «նեղ տեղ ռուսական գործողություն» (շարդինգը, քեշինգը, կրկնօրինակը, CQRS, async)։

7) Ռիսկերի կառավարում

Ռիսկերի իրականացումը 'ռուսական, նկարագրություն, հավանականություն, ազդեցություն (ֆինանսներ/SLA/կարգավորող), սեփականատերերը, կանխարգելման/արձագանքի պլանները։

Կատեգորիաները ՝ բեռի (գերծանրքաշային), ենթակառուցվածքային (AZ/region fail), կախվածությունները (հիբրիդային պրովայդերներ), երկրորդային (reault), ապրանքային (քարոզարշավը ավելի ուժեղ էր, քան սպասումները), կոմպլենսը (limits/կարգավորիչ)։

Մատրիցա ՝ Heatmap (Low/Windows/High no Impact)։

KRI (Key Risk Indicators) 'հերթերի խորությունը, p99 աճը, hit-ratio, burn rate> 2, պրովայդերների սխալները։

8) Վաղ նախազգուշացում և ալերտինգ

Early-warning SLIS-ը 'p95 աճը, քեշ-հիթերի նվազումը, tail latency աճը, retry/timeout աճը, consumer lag աճը։

Burn-rate-alerts սխալները 'արագ (1h) և դանդաղ (6-35h) պատուհանները։

Շեմի և անոմալիա-բազալային ալերտներ 'հիմնական շեմեր + անոմալիայի մոդել (IQR, STL, հոսող դետեկտորներ)։

Ազդանշանների ագրեգացիան 'ածխաջրածինների/ֆիչեֆլագների/դեգրադացիաների իրադարձությունների կորլացիա։

9) Սցենարի վերլուծություն և «what-if»

«Եթե 10 րոպեում աճը + 60 տոկոսն է»։

«Եթե CDN/WAF-ը կտրում է լեգիտիմական միգրացիայի 5 տոկոսը»։

«Եթե կապիտալի պրովայդերը կորցնում է հեղինակային իրավունքի 30 տոկոսը»։

Յուրաքանչյուր սցենարի համար 'սպասվող մետրերը, նեղ տեղերը, քայքայման քայլերը (toggle off ոչ կրիտիկական ֆիչ), ձեռքով/avto-scail, պրովայդերների փոխակերպումը։

10) Կանխատեսումների փորձարկումը և հավատարմությունը

Բեռի թեստերը 'սինթետիկ միացում (k6/JMeter/Disust), ավելցուկ «իրական խառնուրդ»։

Game Days/Chaos: AZ անջատումը, BD դեգրադացիան, փամփուշտի սպառումը։

Shadow/Dark: Ռուսական «ստվերում» նոր ուղու վրա առանց ազդեցության։

Ճշգրտության հետադարձ հայացք. MAPE/SMAPE/RMSE + post-mortem "որտե՞ ղ են սխալվել։ ”.

11) Գործընթացներ և դերեր

RACI:
  • Responsible: MSE/Platform/DS վերլուծաբաններ։
  • Accountable: Head of Ops/SRE.
  • Consulted: Dev Leads, Marketing, Finance (FinOps).
  • Informed: Support/Compliance/Business.
  • Cadens: Շաբաթական կանխատեսումներ, ամեն ամիս SLO/Capacity, նախա-ivent var-rums։

12) Գործիքներ և աթոռներ

Տվյալները ՝ Kafka, ClickHouse/BigQuery, Lake/MSH, dbt.
Մոսկվա: Prometheus, Grafana, Tempo/Jaeger, Loki/ELK, OTel.

ML/Կանխատեսումներ ՝ Airflow/Argo, feature store, ARIMA/EMA/GBM մոդելներ, կանխատեսումների ծառայություն (gRPC/REST)։

Тесты: k6/JMeter/Locust, Fault-injection/Chaos Mesh.

Կառավարում ՝ Feature Flags, Autoscaling (HPA/KEDA), Policy-as-Code։

FinOps: cost enter, showback/chargeback, դոլար/RPS dashbords։

13) Իրականացման գործնական մեթոդաբանությունը (roadmap)

1. Մետրիկի և կախվածության բուլարիզացիան բացատրում է կրիտիկական ճանապարհների քարտեզը (դեպոզիտ, տոկոսադրույքը, եզրակացությունը)։

2. SLO/SLI և սխալների բյուջեները www.p95/p99, error-rates, burn-alerts։

3. Տվյալների հավաքումը և մաքրումը բացատրվում են իրադարձությունների մեկ շերտով/մետրիկ, դեդուպլիկացիա, ուշացում։

4. Սեզոնի հիմնական կանխատեսումը բացատրվում է ցերեկային/շաբաթական փամփուշտներով, արձակուրդներով/խաղերով։

5. Շարժիչների ընդլայնումը բացատրվում է մարկետային քարոզարշավով, ալյումիններով, գեո, ստացիոնար պատուհաններով։

6. Capacity մոդելները wwww.hadro.ru, limits, նեղ տեղեր, օպտիմիզացման պլան։

7. Բեմական «what-if» և Ռուսաստանի դեգրադացիաները (kill-switches, read-only, grace)։

8. Ստուգումը թեստերի/ստվերի միջոցով ցույց է տալիս մոդելների և շեմերի ճշգրտումը։

9. Վիրահատական ռուտինը բացատրում է շաբաթական կանխատեսումները, նախապատմական ռետրոն։

10. Ավտոմատիզացիան կանխատեսում է, պրովայդերների ինքնաբերությունը, Auto-fiflage-ը։

14) Անտիպատերնի

Կանխատեսումը «միայն միջին» առանց պոչերի p95/p99։

Հերթերի և փամփուշտների անտեսումը, խնդիրները հայտնվում են գագաթնակետին։

«Ձեռքով աչքերի վրա» առանց վալիդացիայի և ճշգրտության մետրի։

Ծախսերի հետ կապ չկա ավելցուկ մեծացման հետ։

Դեգրադացիայի և ֆիչեֆլագների պլանի բացակայությունը։

15) Դաշբորդներն ու հաշվետվությունները

Exec-dashbord: RPS/TPS կանխատեսումը (p50/p90/p95), headrope, ռիսկի-ջերմային, burn-rate։

Այդ dashbord: p95/p99 latency ծառայությունների, հերթերի/lag, hit-ratio, pul no, BD/kash, արտաքին API-ի սահմանները։

Ֆինանսական ՝ դոլար/RPS, ծախսերի կանխատեսումը, օպտիմիզացման ազդեցությունը։

Կանխատեսումների ճշգրտությունը 'իրական vs կանխատեսումը, ժամանակահատվածների սխալը/geo/2019։

16) Արտեֆակտների օրինակները

Risk Register: ID, ռիսկ, հավանականություն/ազդեցություն, սեփականատեր, KRI, միգրացիայի պլան, արձագանքի պլան։

Capacity Sheet: ծառայություն, ներկա throughput, լիմիտ, նեղ տեղ, headrope, պահանջվող ընդլայնումը, ET/արժեքը։

What-If Cards: սցենարը, մուտքային գործոնները, սպասվող մետրերը, գործողությունները, ավարտի չափանիշը։

Playbook Degrade: fich ցանկը, QoS մակարդակները, կետերի/ստատիկի երթուղիները, retry/timeout լիմիթները։

17) Հիմնական KPI գործառույթները

SLO-ի իրականացումը (նպատակային ժամանակահատվածների տոկոսը), վաղ ցուցանիշների արձագանքման ժամանակը, կանխատեսումների ճշգրտությունը (MAPE/SMAPE), ծանրաբեռնվածության պատճառով միգրանցների քանակը, ավտոմատ մասշտաբների մասը, դոլար/RPS խնայողությունը առանց SLO-ի քայքայման։

Արդյունքը

Բեռի և ռիսկերի համակարգային կանխատեսումը կապն է 'բարձրորակ տվյալներ, որոնք պարունակում են իմաստալից չափումներ, որոնք ստուգվում են սցենարի և playbooks-ի փորձարկված մոդելներով, որոնք ավտոմատիզացնում են մեծացումը և քայքայումը։ Այս ստանդարտը ապահովում է կայունությունը, ծախսերի կանխատեսելիությունը և կայուն օգտագործողի փորձը նույնիսկ ծայրահեղ պիկի մեջ։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։