ოპერაციები და მენეჯმენტი - ინციდენტების პროგნოზი
ინციდენტების პროგნოზი
1) რატომ არის ეს აუცილებელი?
ინციდენტები იშვიათად „აფეთქდება არსად“. წარუმატებლობამდე, პლატფორმა იძლევა სიგნალებს: დაჩქარებული ზრდა p99, error ბიუჯეტის ნელი დამწვრობა, რიგების ლაქები, კონკრეტულ დუნსტრიმზე ჭიდაობის ზრდა, პროვაიდერის კვოტების მიახლოება. ინციდენტების სისტემური პროგნოზი „ხანძრის ჩაქრობისგან“ რეაქციას „ადრეულ ჩარევაში“ აქცევს, ამცირებს MTTR- ს, Change Failure Rate- ს და შემოსავლის დაკარგვას.
მიზნები:- გამოავლინეთ წინამორბედების შაბლონები და ავტომატურად დაიწყეთ პრევენციული მოქმედებები.
- P1/P2- ის წილის შემცირება მარცხნივ ცვლის გამო (pre-incident detect rate).
- განათავსეთ პროგნოზები გამოშვების, ფეილოვერის და კაპიტალური ჭრილობების პროცესებში.
2) სიგნალების რუკა
პლატფორმა/ინფო:- P95/p99 (გრადიენტი) აჩქარება, შეფერხებების „კუდები“, ვარიაციის ზრდა.
- რიგები/ნაკადები: ზრდა „lag“ და პოზიტიური წარმოებული lag; HPA მაქსიმუმზე.
- BD/ქეში: 'Active _ conns/max _ conns', 'replication _ lag', 'evictions', ვარდნა 'cache _ hit'.
- ქსელი: mTLS/handshake შეცდომები, ზრდა 5xx/timeout გარეთ.
- 'outbound _ error _ rate '/' retry _ rate' კონკრეტული პროვაიდერის, 'circuit _ open', '@ ta _ usage> 0. 9`.
- SLA პროვაიდერი: დაგეგმილი ფანჯრები, დეგრადაცია.
- არანორმალური დატვირთვა (კამპანიები/მატჩები), RPS/TPS რბოლა, რეგიონების/არხების უჩვეულო მიქსი.
- დეპოზიტების/განაკვეთების კონვერტაცია ეცემა p99 კვაზი-მარიონეტული ინციდენტის ზრდის დროს.
- Burn-rate error-ბიუჯეტი> ბარიერი (მაგალითად,> 4 × 10-15 წუთის განმავლობაში).
- ხშირი მცირე SLO დარღვევები (მიკრო დეგრადაცია), როგორც მოახლოებული გაუმართაობის ნიშანი.
3) მონაცემთა წყაროები და ფანჯრები
ონლაინ ტელემეტრია: Prometheus/OTel (მეტრიკა, ლოგოები, ტრეისი).
ინციდენტების მოვლენები: თიკეტები/სტატუსები/პოსტმორტემები (სიმართლე ტარგეტისთვის).
გეგმა/ცვლილებების ფაქტები: გამოშვებები, ფიჩეფლაგები, მიგრაცია, პროვაიდერების ფანჯრები.
ცნობარები: დამოკიდებულების რუკა, კვოტები, მფლობელები.
DWH სურათები: სასწავლო/ვალიდაციის ერთეულები (სინქრონული ფანჯარა!).
მოთხოვნები ხარისხზე: სისრულე 99%, TZ საათის/წუთიანი განლაგება, p95/p99 ერთიანი განმარტებები.
4) წინასწარმეტყველების მიდგომა
4. 1 ნეპარმეტრიული/წესები (სწრაფი დასაწყისი)
ბარიერი ალერტები ცვლილების სიჩქარეზე: 'deriv (p99)', 'z-score' მოკლე ფანჯრებისთვის.
კომპოზიციური პირობები: 'lag' + HPA = max + circuit _ Open (to = „PSP-X“) '.
SLO-burn კარიბჭეები: გამოშვების/კანარის ნაშთები burn-rate> X.
4. 2 ანომალიების დეტექტივი
Seasonal baselines (STL/Prophet მსგავსი იდეები), rolling საშუალო + MAD.
მულტივარიატი: ერთობლივი ანომალია 'p99 + retry + Open _ circuit + çta'.
Change-point detection: CUSUM/BOCPD ტენდენციების შეცვლისთვის.
4. 3 ML მოდელები
კლასიფიკაცია „ინციდენტი T + K- ში?“ ნიშნების ფანჯრის მიხედვით (მაგალითად, 10-30 წუთით ადრე).
ნიშნები: სტატისტიკა, წარმოებულები, სეზონური ნაშთები, ერთი ცხელი პროვაიდერები/რეგიონები, გამოშვების დროშები.
ეტიკეტები: 'incident {severity' [P1, P2] "ინტერვალში [t, t + K].
Explainability: SHAP/Permutation importance ნდობისა და ოპერაციისთვის.
4. 4 SRE-first ჰიბრიდი
მოდელი - რისკის სკორინგი (0-1) - მოქმედების პოლიტიკა (ficheflagi/failover/project skale), HITL- ით კრიტიკისთვის.
5) მახასიათებლების დიზაინი
მოცურების ფანჯრები (1/5/15 წთ): კაცი, p95/p99, std, max, slope.
ფარდობითი ინდიკატორები: 'p99/baseline _ 1d', 'error _ rate _ delta'.
კოჰორტული ფიჩები: პროვაიდერი, რეგიონი, თამაშის/მატჩის ტიპი, მოწყობილობის არხი.
„დატვირთული“ ფიჩები: RPS, payload size, ღია WS რაოდენობა.
სისტემური: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
ღონისძიების დროშები: „არის გამოშვება“, „კანარი 10%“, „პროვაიდერის ფანჯარა“.
6) პროგნოზებისა და მოქმედების მექანიკა
გადაწყვეტილების ჯაჭვი:1. რისკის მაჩვენებელი ყოველ N წამში დომენებზე (Payments/Bets/Games/KYC).
2. ალერტის პოლიტიკა:- რისკი 0. 8 + დამადასტურებელი სიგნალები - დომენის მფლობელის გვერდი;
- 0. 6–0. 8 - გაფრთხილება + ზომების მომზადება.
- წინასწარი skale (HPA minReplicas), ქეშის ჩართვა, მძიმე ფუნქციების შეზღუდვა;
- გადართვა სარეზერვო პროვაიდერზე/მარშრუტზე;
- პაუზა/rollbek კანარი;
- Retray- ის ზღვარი „ვიწრო“ dowstrim- ისთვის.
4. HITL: ადამიანი ადასტურებს „ბიზნესის ქცევის ცვლილების“ დონის ზომებს.
7) ინტეგრაცია ყოველდღიურ პროცესებში
გამოშვებები: პრედიკულური კარიბჭეები კანარეებზე (შედარება „წინ/მის შემდეგ“ და რისკის შემცირება).
Faylover: ავტომატური მომზადება/გაათბეთ სარეზერვო მარშრუტი პროვაიდერის რისკის დროს.
Capacity: „early uplift“ headroom- ის დაცემისა და ლაგების ზრდის დროს.
შეტყობინებები: ცალკეული ფირზე „pre-incident“ + dashboard- ის ვიდეოები.
8) დაკვირვება და დაშბორდები
Risk Overview: დომენებისა და პროვაიდერების რისკი, ტენდენციები, ნიშნების წვლილი.
Lead Signals: ტოპ-N წინამორბედები (გრადიენტი p99, lag, ღია ბრეიკერები).
Actions & Outcomes: რაც ჩართულია, p95/error ეფექტი, გაუქმებული ინციდენტები.
Model Health: precision/recall/latence, drift ნიშნები, ავტომობილების სიხშირე.
9) წინასწარმეტყველების ხარისხის მეტრიკა
Recall @ P1/P2 (მგრძნობელობა კრიტიკულ ინციდენტებზე).
Precision (ნაკლები „ყალბი პეიჯი“).
Lead Time (საშუალო „რამდენი წუთი ფაქტამდე“).
Intervention Win-rate (იმ შემთხვევების წილი, სადაც მოქმედებამ შეამცირა რისკი/ხარჯები).
Alert Fatigue Index (ალერტის/შეცვლა/ადამიანი).
Drift Score (stat. სასწავლო პერიოდის ნიშნების განაწილების განსხვავებები).
ნაგულისხმევი მიზნები: Recall (P1) - 0. 7, Precision ≥ 0. 6, Lead Time Media 8-10.
10) მოდელის რისკების მენეჯმენტი (ML Ops/Governance)
მონაცემთა/კოდის/არტეფაქტების ვერსია, რეპროდუქცია.
Champion/Challenger: ახალი მოდელი პარალელურად მიმდინარეობს, შედარება ოფლაინ/ინტერნეტით.
დრიფტი: PSI/KL დივერგენცია, მანქანის ბარიერების ჩამონათვალი, ალერტი „მოძველებული მოდელი“.
Explainability: თითოეული გადაწყვეტილებისთვის შეინახეთ ნიშნების მნიშვნელობა და მონაცემების ბმული.
უსაფრთხოება/ეთიკა: წვდომა, PII შენიღბვა, პოლიტიკოსების მიერ საგზაო მოქმედებების კონტროლი.
11) წესებისა და პოლიტიკოსების მაგალითები
SLO-burn და კანარი (კონცეფცია):
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
პროვაიდერის კომპოზიციური რისკი:
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
ლაგ-ქარიშხალი ნაკადში:
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12) განხორციელების სიის სია (30-60 დღე)
- სიგნალებისა და „ჭეშმარიტების“ კატალოგი ინციდენტებთან დაკავშირებით (სიგნალი, დრო).
- ძირითადი ხაზები და სეზონური ძირითადი მეტრიკებისთვის (გამოშვების დაწყებამდე).
- ადრეული სიგნალების წესები (გრადიენტები p99, lag, burn-rate).
- დაშბორდები Risk/Lead Signals/Actions.
- ინტეგრაცია ძაფებთან/კანარებთან, HPA- ს წინა სკალით.
- ML კლასიფიკატორის მფრინავი ერთ დომენზე (მაგალითად, Payments).
- პოლიტიკოსები HITL და საავტომობილო საქმიანობის ჟურნალი.
- ხარისხის მეტრიკა და ალერტა მოდელის დრიფტზე/ჯანმრთელობაზე.
13) ანტი შაბლონები
კრისტალური ბურთები: რთული ML მოდელი ძირითადი ხაზების და მარტივი წესების გარეშე.
არ არსებობს აქტუალობა: ჩვენ პროგნოზირებთ „ცუდად“, მაგრამ ავტომატურად არაფერს ვაკეთებთ.
სეზონური/მოვლენების კალენდრის უგულებელყოფა (მატჩები/ტურნირები) ცრუ შფოთვა.
დროის ზონების ნაზავი არის არასწორი მეტრული/ინციდენტების ფანჯრები.
ექსპლუატაციის არარსებობა - უნდობლობა, გუნდების მიერ ღალატის გათიშვა.
ყველა დომენის/რეგიონის ერთი გლობალური ბარიერი დაბალი სიზუსტეა.
14) დომენის სპეციფიკა (iGaming)
Payments: პროვაიდერები/კვოტები, ზრდა 'retry _ rate' და 'circuit _ open' ადრეული ფეილოვერი.
Bets: კოეფიციენტების განახლების შეფერხება, WS გულშემატკივართა ზრდა - მაუწყებლობის ლიმიტი.
Games/Live: ნაერთების აურზაური, სტუდიების ლიმიტები, UI/ქეში დეგრადაცია.
KYC/AML: webhook შეფერხება, გადამოწმების სტრიქონი HITL და დაგვიანებული დამუშავება.
15) მეტრიკის და ალერტის მაგალითები (იდეები)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16) KPI პროგნოზის პროგრამები
Pre-Incident Detect Rate (პრევენციული/შემსუბუქებული ინციდენტების წილი).
Avg Lead Time ინციდენტამდე.
Reduction in P1/P2 კვადრატული მეტრი/კვადრატული მეტრი.
MTTR (მოსალოდნელია ადრეული კონტექსტის გამო).
False Alarm Rate/Alert Fatigue (სტაბილურად).
Cost Avoidance (პრევენციული ზარალის/ჯარიმების/ოვერსკეილის შეფასება).
17) სწრაფი დაწყება (რეცეპტი)
1. ჩართეთ გრადიენტის წესები p99/lag და SLO-burn;
2. დაამატეთ კომპოზიციური პირობები პროვაიდერებისთვის;
3. დააკავშირეთ წინამორბედი ძაფებთან და წინა სკალთან;
4. მოხსენება „პროგნოზირება და ეფექტი“;
5. მფრინავი ML ერთ დომენში; მასშტაბური Precision/Recall- ის ზრდის შემდეგ.
18) FAQ
Q: რატომ უნდა დავიწყოთ ML გარეშე?
A: სეზონური ძირითადი ხაზები + გრადიენტები + კომპოზიციური წესები. ეს იძლევა Recall- ის შესამჩნევ ზრდას სირთულეების გარეშე.
Q: როგორ არ დაიხრჩო ხალხური პოზიტიური?
A: დააკავშიროთ სიგნალები, შეიყვანეთ ჰისტერეზი და დადასტურების დრო, დააკონფიგურიროთ per დომენის/რეგიონის ბარიერები, შეაფასეთ Precision და Alert Fatigue.
Q: რა არის პირველი, ვინც ავტომატიზაცია მოახდინა?
A: უსაფრთხო და შექცევადი: წინასწარი სკეიტი, ქეში/დეგრადაციის ჩართვა, კანარის პაუზა/როლბეკი, დადასტურებული სიგნალების დროს პროვაიდერის შეცვლა.