Բեռի և ռիսկերի կանխատեսումը
1) Ինչո՞ ւ է դա անհրաժեշտ
Բեռի և ռիսկերի կանխատեսումը հնարավորություն է տալիս նախօրոք պատրաստել ենթակառուցվածքները և գործընթացները գագաթնակետային իրադարձությունների համար (օրինագծեր, մրցույթներ, գովազդային արշավներ, խաղեր, արձակուրդներ), նվազեցնել բյուջեի հոսքը և փոխակերպումը։ Արդյունքները օգտագործվում են
պլանավորում (capacity planning) և անջատել;
SLO/SLI, ռուսական սխալներ և Ալերտինգի քաղաքական գործիչը։
ածխաջրերի ռազմավարության ընտրություն (canary, blue-green, dark launch);
ռիսկերի կառավարումը 'քայքայման, հերթերի, գործարքների, SLA տուգանքների կանխումը։
2) Հիմնական հասկացությունները
Express (Load) 'ներկայացված իրադարձությունների/գործողությունների ինտենսիվությունը (RPS, TPS, events/sec), ինչպես նաև CPU/RAM/IO/NET սպառումը։
Արտադրողականությունը (Capacity) կայուն հաջողակ արտադրողականություն է սահմանված SLO-ով և արժեքով։
Ռիսկը 'անցանկալի իրադարձության հավանականությունը (SLA-ձախողում, պատահականություն, ընդհատում)։
Վաղ ցուցանիշները 'չափումներ, որոնք աճում են մինչև 108 (latency p95/p99, queue depth, GC pauses, error rate, saturation)։
Ուժի պլանավորումը (Headrope) 'հասանելի տարաների հարաբերակցությունը ներկա բեռի հետ։
3) Տվյալների և չափումների աղբյուրները
Աղբյուրներ ՝ Logs և metrics (Prometheus/OTel), ուղիներ, բիզնես լիվենտներ (Kafka), CDN/WAF/ALB լոգներ, marktech տվյալներ (քարոզարշավներ), իրադարձությունների օրացույցներ, բիլինգ/կոստներ (Finops), ֆիգներ և/laglaga գծեր (Kafka/Rabbit), BD/kashi։
Հիմնական մետրերը
Մոսկվա: RPS/TPS, ակտիվ օգտագործողներ (DAU/MAU), նստաշրջաններ, քայլերի փոխադարձություն։
Արտադրողականությունը ՝ latency p50/p95/p99, throughput, սխալներ (4xx/5xx), timeouts, retries։
Ресурсы: CPU/LoadAvg, RAM/GC, disk IOps/lat, network bw, connection pool usage.
Գծերը ՝ backlog, lag, consumer lag, time-in-queue։
БД: QPS, lock waits, slow queries, replication lag.
Кэши: hit ratio, eviction rate, hot keys.
Բիզնես մակարդակը 'դեպոզիտներ/տոկոսադրույքներ րոպեում, հիբրիդային ձախողումներ, KYC/AML հերթը։
Մոսկվա: SLI/SLO, error budget burn rate (1h/6h/49h)։
4) Կոդավորման հիմնական մոդելները
1. Դետերմինացված և օրացուցային 'ռեգրեսիա հայտնի շարժիչների վրա (ամսաթիվը/ժամանակը, խաղերը, մրցույթները, մարկետինգային-պուլները, գեյոն, ակցիոն թնդանոթները)։
2. Վիճակագրական ՝ սեզոնային/միտում (ARIMA/ESA), արձակուրդների ռեգրեսիա, Prophet-նման մոտեցումներ։
3. ML/ensemble: գրադիենտ բուստինգը/Random Forest/XGBoost/Last GBM; ավելացնում ենք ֆիչին 'եղանակը, փոխարժեքը, սպորտի նորությունները, մրցակցող եբենտները։
4. Խառը 'վիճակագրությունը սեզոնայնության + ML-ի համար էկզոգեն գործոնների համար (քարոզարշավներ, օրինագծեր)։
5. Quoti/քվանալի 'կանխատեսումը ոչ միայն միջին, այլ նաև p90/p95-ի պլանավորման համար։
Մոդելի ելքերը 'RPS/TPS կանխատեսումը և լատենտության/սխալների բաշխումը T + 1h/T + wwww.h/T + 7d/T + 30d վստահելի ընդմիջումներով։
5) Գծեր և սահմաններ ՝ մինի-տեսություն
Լիթլի օրենքը ՝ L = 350W (համակարգում միջին քանակը = ինտենսիվությունը)։
Նեղ տեղեր 'BD/kash/shin/pul/pul API պրովայդերների լիմիտներ։
Saturation: Երբ բեռնվում է> 70-80 տոկոսը, լատինականությունը աճում է ոչ գծային։
Backpressure 'սպառողների պաշտպանությունը ծանրաբեռնվածությունից (լիմիտներ, հերթեր, shed քաղաքականություն, ֆիչի դեգրադացիա)։
6) Տարաների պլանավորումը (Capacity Planning)
«SLO» մեթոդը 'պահանջվող p99-լատինականությունը և թույլատրելի error rate-ը, որ throughput-ը դիմանում է headrope N %-ի ժամանակ։
«Տերմինալից» մեթոդը ՝ «Match LC», «Սև ուրբաթ», «Մեծ մրցաշար» -ը հաստատեց վերին քվանտները + մեկ AZ/հանգույցի հրաժարումը։
«Cost-a.ru» մեթոդը 'ընտրում ենք ԱՄՆ դոլար/RPS կազմաձևը, հաշվի առնելով զեղչերը, ստանդարտները, spot/2019, autoscaling։
Արտեֆակտներ ՝ Capacity Model per ծառայություն, limits և քվոտաներ (API, BD, հերթեր), ռուսական «նեղ տեղ ռուսական գործողություն» (շարդինգը, քեշինգը, կրկնօրինակը, CQRS, async)։
7) Ռիսկերի կառավարում
Ռիսկերի իրականացումը 'ռուսական, նկարագրություն, հավանականություն, ազդեցություն (ֆինանսներ/SLA/կարգավորող), սեփականատերերը, կանխարգելման/արձագանքի պլանները։
Կատեգորիաները ՝ բեռի (գերծանրքաշային), ենթակառուցվածքային (AZ/region fail), կախվածությունները (հիբրիդային պրովայդերներ), երկրորդային (reault), ապրանքային (քարոզարշավը ավելի ուժեղ էր, քան սպասումները), կոմպլենսը (limits/կարգավորիչ)։
Մատրիցա ՝ Heatmap (Low/Windows/High no Impact)։
KRI (Key Risk Indicators) 'հերթերի խորությունը, p99 աճը, hit-ratio, burn rate> 2, պրովայդերների սխալները։
8) Վաղ նախազգուշացում և ալերտինգ
Early-warning SLIS-ը 'p95 աճը, քեշ-հիթերի նվազումը, tail latency աճը, retry/timeout աճը, consumer lag աճը։
Burn-rate-alerts սխալները 'արագ (1h) և դանդաղ (6-35h) պատուհանները։
Շեմի և անոմալիա-բազալային ալերտներ 'հիմնական շեմեր + անոմալիայի մոդել (IQR, STL, հոսող դետեկտորներ)։
Ազդանշանների ագրեգացիան 'ածխաջրածինների/ֆիչեֆլագների/դեգրադացիաների իրադարձությունների կորլացիա։
9) Սցենարի վերլուծություն և «what-if»
«Եթե 10 րոպեում աճը + 60 տոկոսն է»։
«Եթե CDN/WAF-ը կտրում է լեգիտիմական միգրացիայի 5 տոկոսը»։
«Եթե կապիտալի պրովայդերը կորցնում է հեղինակային իրավունքի 30 տոկոսը»։
Յուրաքանչյուր սցենարի համար 'սպասվող մետրերը, նեղ տեղերը, քայքայման քայլերը (toggle off ոչ կրիտիկական ֆիչ), ձեռքով/avto-scail, պրովայդերների փոխակերպումը։
10) Կանխատեսումների փորձարկումը և հավատարմությունը
Բեռի թեստերը 'սինթետիկ միացում (k6/JMeter/Disust), ավելցուկ «իրական խառնուրդ»։
Game Days/Chaos: AZ անջատումը, BD դեգրադացիան, փամփուշտի սպառումը։
Shadow/Dark: Ռուսական «ստվերում» նոր ուղու վրա առանց ազդեցության։
Ճշգրտության հետադարձ հայացք. MAPE/SMAPE/RMSE + post-mortem "որտե՞ ղ են սխալվել։ ”.
11) Գործընթացներ և դերեր
RACI:- Responsible: MSE/Platform/DS վերլուծաբաններ։
- Accountable: Head of Ops/SRE.
- Consulted: Dev Leads, Marketing, Finance (FinOps).
- Informed: Support/Compliance/Business.
- Cadens: Շաբաթական կանխատեսումներ, ամեն ամիս SLO/Capacity, նախա-ivent var-rums։
12) Գործիքներ և աթոռներ
Տվյալները ՝ Kafka, ClickHouse/BigQuery, Lake/MSH, dbt.
Մոսկվա: Prometheus, Grafana, Tempo/Jaeger, Loki/ELK, OTel.
ML/Կանխատեսումներ ՝ Airflow/Argo, feature store, ARIMA/EMA/GBM մոդելներ, կանխատեսումների ծառայություն (gRPC/REST)։
Тесты: k6/JMeter/Locust, Fault-injection/Chaos Mesh.
Կառավարում ՝ Feature Flags, Autoscaling (HPA/KEDA), Policy-as-Code։
FinOps: cost enter, showback/chargeback, դոլար/RPS dashbords։
13) Իրականացման գործնական մեթոդաբանությունը (roadmap)
1. Մետրիկի և կախվածության բուլարիզացիան բացատրում է կրիտիկական ճանապարհների քարտեզը (դեպոզիտ, տոկոսադրույքը, եզրակացությունը)։
2. SLO/SLI և սխալների բյուջեները www.p95/p99, error-rates, burn-alerts։
3. Տվյալների հավաքումը և մաքրումը բացատրվում են իրադարձությունների մեկ շերտով/մետրիկ, դեդուպլիկացիա, ուշացում։
4. Սեզոնի հիմնական կանխատեսումը բացատրվում է ցերեկային/շաբաթական փամփուշտներով, արձակուրդներով/խաղերով։
5. Շարժիչների ընդլայնումը բացատրվում է մարկետային քարոզարշավով, ալյումիններով, գեո, ստացիոնար պատուհաններով։
6. Capacity մոդելները wwww.hadro.ru, limits, նեղ տեղեր, օպտիմիզացման պլան։
7. Բեմական «what-if» և Ռուսաստանի դեգրադացիաները (kill-switches, read-only, grace)։
8. Ստուգումը թեստերի/ստվերի միջոցով ցույց է տալիս մոդելների և շեմերի ճշգրտումը։
9. Վիրահատական ռուտինը բացատրում է շաբաթական կանխատեսումները, նախապատմական ռետրոն։
10. Ավտոմատիզացիան կանխատեսում է, պրովայդերների ինքնաբերությունը, Auto-fiflage-ը։
14) Անտիպատերնի
Կանխատեսումը «միայն միջին» առանց պոչերի p95/p99։
Հերթերի և փամփուշտների անտեսումը, խնդիրները հայտնվում են գագաթնակետին։
«Ձեռքով աչքերի վրա» առանց վալիդացիայի և ճշգրտության մետրի։
Ծախսերի հետ կապ չկա ավելցուկ մեծացման հետ։
Դեգրադացիայի և ֆիչեֆլագների պլանի բացակայությունը։
15) Դաշբորդներն ու հաշվետվությունները
Exec-dashbord: RPS/TPS կանխատեսումը (p50/p90/p95), headrope, ռիսկի-ջերմային, burn-rate։
Այդ dashbord: p95/p99 latency ծառայությունների, հերթերի/lag, hit-ratio, pul no, BD/kash, արտաքին API-ի սահմանները։
Ֆինանսական ՝ դոլար/RPS, ծախսերի կանխատեսումը, օպտիմիզացման ազդեցությունը։
Կանխատեսումների ճշգրտությունը 'իրական vs կանխատեսումը, ժամանակահատվածների սխալը/geo/2019։
16) Արտեֆակտների օրինակները
Risk Register: ID, ռիսկ, հավանականություն/ազդեցություն, սեփականատեր, KRI, միգրացիայի պլան, արձագանքի պլան։
Capacity Sheet: ծառայություն, ներկա throughput, լիմիտ, նեղ տեղ, headrope, պահանջվող ընդլայնումը, ET/արժեքը։
What-If Cards: սցենարը, մուտքային գործոնները, սպասվող մետրերը, գործողությունները, ավարտի չափանիշը։
Playbook Degrade: fich ցանկը, QoS մակարդակները, կետերի/ստատիկի երթուղիները, retry/timeout լիմիթները։
17) Հիմնական KPI գործառույթները
SLO-ի իրականացումը (նպատակային ժամանակահատվածների տոկոսը), վաղ ցուցանիշների արձագանքման ժամանակը, կանխատեսումների ճշգրտությունը (MAPE/SMAPE), ծանրաբեռնվածության պատճառով միգրանցների քանակը, ավտոմատ մասշտաբների մասը, դոլար/RPS խնայողությունը առանց SLO-ի քայքայման։
Արդյունքը
Բեռի և ռիսկերի համակարգային կանխատեսումը կապն է 'բարձրորակ տվյալներ, որոնք պարունակում են իմաստալից չափումներ, որոնք ստուգվում են սցենարի և playbooks-ի փորձարկված մոդելներով, որոնք ավտոմատիզացնում են մեծացումը և քայքայումը։ Այս ստանդարտը ապահովում է կայունությունը, ծախսերի կանխատեսելիությունը և կայուն օգտագործողի փորձը նույնիսկ ծայրահեղ պիկի մեջ։