GH GambleHub

ოპერაციები და მენეჯმენტი - ინციდენტების პროგნოზი

ინციდენტების პროგნოზი

1) რატომ არის ეს აუცილებელი?

ინციდენტები იშვიათად „აფეთქდება არსად“. წარუმატებლობამდე, პლატფორმა იძლევა სიგნალებს: დაჩქარებული ზრდა p99, error ბიუჯეტის ნელი დამწვრობა, რიგების ლაქები, კონკრეტულ დუნსტრიმზე ჭიდაობის ზრდა, პროვაიდერის კვოტების მიახლოება. ინციდენტების სისტემური პროგნოზი „ხანძრის ჩაქრობისგან“ რეაქციას „ადრეულ ჩარევაში“ აქცევს, ამცირებს MTTR- ს, Change Failure Rate- ს და შემოსავლის დაკარგვას.

მიზნები:
  • გამოავლინეთ წინამორბედების შაბლონები და ავტომატურად დაიწყეთ პრევენციული მოქმედებები.
  • P1/P2- ის წილის შემცირება მარცხნივ ცვლის გამო (pre-incident detect rate).
  • განათავსეთ პროგნოზები გამოშვების, ფეილოვერის და კაპიტალური ჭრილობების პროცესებში.

2) სიგნალების რუკა

პლატფორმა/ინფო:
  • P95/p99 (გრადიენტი) აჩქარება, შეფერხებების „კუდები“, ვარიაციის ზრდა.
  • რიგები/ნაკადები: ზრდა „lag“ და პოზიტიური წარმოებული lag; HPA მაქსიმუმზე.
  • BD/ქეში: 'Active _ conns/max _ conns', 'replication _ lag', 'evictions', ვარდნა 'cache _ hit'.
  • ქსელი: mTLS/handshake შეცდომები, ზრდა 5xx/timeout გარეთ.
დამოკიდებულება/პროვაიდერები:
  • 'outbound _ error _ rate '/' retry _ rate' კონკრეტული პროვაიდერის, 'circuit _ open', '@ ta _ usage> 0. 9`.
  • SLA პროვაიდერი: დაგეგმილი ფანჯრები, დეგრადაცია.
პროდუქტი/ბიზნესი:
  • არანორმალური დატვირთვა (კამპანიები/მატჩები), RPS/TPS რბოლა, რეგიონების/არხების უჩვეულო მიქსი.
  • დეპოზიტების/განაკვეთების კონვერტაცია ეცემა p99 კვაზი-მარიონეტული ინციდენტის ზრდის დროს.
SLO ფენა:
  • Burn-rate error-ბიუჯეტი> ბარიერი (მაგალითად,> 4 × 10-15 წუთის განმავლობაში).
  • ხშირი მცირე SLO დარღვევები (მიკრო დეგრადაცია), როგორც მოახლოებული გაუმართაობის ნიშანი.

3) მონაცემთა წყაროები და ფანჯრები

ონლაინ ტელემეტრია: Prometheus/OTel (მეტრიკა, ლოგოები, ტრეისი).
ინციდენტების მოვლენები: თიკეტები/სტატუსები/პოსტმორტემები (სიმართლე ტარგეტისთვის).
გეგმა/ცვლილებების ფაქტები: გამოშვებები, ფიჩეფლაგები, მიგრაცია, პროვაიდერების ფანჯრები.
ცნობარები: დამოკიდებულების რუკა, კვოტები, მფლობელები.
DWH სურათები: სასწავლო/ვალიდაციის ერთეულები (სინქრონული ფანჯარა!).

მოთხოვნები ხარისხზე: სისრულე 99%, TZ საათის/წუთიანი განლაგება, p95/p99 ერთიანი განმარტებები.

4) წინასწარმეტყველების მიდგომა

4. 1 ნეპარმეტრიული/წესები (სწრაფი დასაწყისი)

ბარიერი ალერტები ცვლილების სიჩქარეზე: 'deriv (p99)', 'z-score' მოკლე ფანჯრებისთვის.
კომპოზიციური პირობები: 'lag' + HPA = max + circuit _ Open (to = „PSP-X“) '.
SLO-burn კარიბჭეები: გამოშვების/კანარის ნაშთები burn-rate> X.

4. 2 ანომალიების დეტექტივი

Seasonal baselines (STL/Prophet მსგავსი იდეები), rolling საშუალო + MAD.
მულტივარიატი: ერთობლივი ანომალია 'p99 + retry + Open _ circuit + çta'.
Change-point detection: CUSUM/BOCPD ტენდენციების შეცვლისთვის.

4. 3 ML მოდელები

კლასიფიკაცია „ინციდენტი T + K- ში?“ ნიშნების ფანჯრის მიხედვით (მაგალითად, 10-30 წუთით ადრე).
ნიშნები: სტატისტიკა, წარმოებულები, სეზონური ნაშთები, ერთი ცხელი პროვაიდერები/რეგიონები, გამოშვების დროშები.
ეტიკეტები: 'incident {severity' [P1, P2] "ინტერვალში [t, t + K].
Explainability: SHAP/Permutation importance ნდობისა და ოპერაციისთვის.

4. 4 SRE-first ჰიბრიდი

მოდელი - რისკის სკორინგი (0-1) - მოქმედების პოლიტიკა (ficheflagi/failover/project skale), HITL- ით კრიტიკისთვის.

5) მახასიათებლების დიზაინი

მოცურების ფანჯრები (1/5/15 წთ): კაცი, p95/p99, std, max, slope.
ფარდობითი ინდიკატორები: 'p99/baseline _ 1d', 'error _ rate _ delta'.
კოჰორტული ფიჩები: პროვაიდერი, რეგიონი, თამაშის/მატჩის ტიპი, მოწყობილობის არხი.
„დატვირთული“ ფიჩები: RPS, payload size, ღია WS რაოდენობა.
სისტემური: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
ღონისძიების დროშები: „არის გამოშვება“, „კანარი 10%“, „პროვაიდერის ფანჯარა“.

6) პროგნოზებისა და მოქმედების მექანიკა

გადაწყვეტილების ჯაჭვი:

1. რისკის მაჩვენებელი ყოველ N წამში დომენებზე (Payments/Bets/Games/KYC).

2. ალერტის პოლიტიკა:
  • რისკი 0. 8 + დამადასტურებელი სიგნალები - დომენის მფლობელის გვერდი;
  • 0. 6–0. 8 - გაფრთხილება + ზომების მომზადება.
3. ავტომობილები (safeguards):
  • წინასწარი skale (HPA minReplicas), ქეშის ჩართვა, მძიმე ფუნქციების შეზღუდვა;
  • გადართვა სარეზერვო პროვაიდერზე/მარშრუტზე;
  • პაუზა/rollbek კანარი;
  • Retray- ის ზღვარი „ვიწრო“ dowstrim- ისთვის.
  • 4. HITL: ადამიანი ადასტურებს „ბიზნესის ქცევის ცვლილების“ დონის ზომებს.

7) ინტეგრაცია ყოველდღიურ პროცესებში

გამოშვებები: პრედიკულური კარიბჭეები კანარეებზე (შედარება „წინ/მის შემდეგ“ და რისკის შემცირება).
Faylover: ავტომატური მომზადება/გაათბეთ სარეზერვო მარშრუტი პროვაიდერის რისკის დროს.
Capacity: „early uplift“ headroom- ის დაცემისა და ლაგების ზრდის დროს.
შეტყობინებები: ცალკეული ფირზე „pre-incident“ + dashboard- ის ვიდეოები.

8) დაკვირვება და დაშბორდები

Risk Overview: დომენებისა და პროვაიდერების რისკი, ტენდენციები, ნიშნების წვლილი.
Lead Signals: ტოპ-N წინამორბედები (გრადიენტი p99, lag, ღია ბრეიკერები).
Actions & Outcomes: რაც ჩართულია, p95/error ეფექტი, გაუქმებული ინციდენტები.
Model Health: precision/recall/latence, drift ნიშნები, ავტომობილების სიხშირე.

9) წინასწარმეტყველების ხარისხის მეტრიკა

Recall @ P1/P2 (მგრძნობელობა კრიტიკულ ინციდენტებზე).
Precision (ნაკლები „ყალბი პეიჯი“).
Lead Time (საშუალო „რამდენი წუთი ფაქტამდე“).
Intervention Win-rate (იმ შემთხვევების წილი, სადაც მოქმედებამ შეამცირა რისკი/ხარჯები).
Alert Fatigue Index (ალერტის/შეცვლა/ადამიანი).
Drift Score (stat. სასწავლო პერიოდის ნიშნების განაწილების განსხვავებები).

ნაგულისხმევი მიზნები: Recall (P1) - 0. 7, Precision ≥ 0. 6, Lead Time Media 8-10.

10) მოდელის რისკების მენეჯმენტი (ML Ops/Governance)

მონაცემთა/კოდის/არტეფაქტების ვერსია, რეპროდუქცია.
Champion/Challenger: ახალი მოდელი პარალელურად მიმდინარეობს, შედარება ოფლაინ/ინტერნეტით.
დრიფტი: PSI/KL დივერგენცია, მანქანის ბარიერების ჩამონათვალი, ალერტი „მოძველებული მოდელი“.
Explainability: თითოეული გადაწყვეტილებისთვის შეინახეთ ნიშნების მნიშვნელობა და მონაცემების ბმული.
უსაფრთხოება/ეთიკა: წვდომა, PII შენიღბვა, პოლიტიკოსების მიერ საგზაო მოქმედებების კონტროლი.

11) წესებისა და პოლიტიკოსების მაგალითები

SLO-burn და კანარი (კონცეფცია):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
პროვაიდერის კომპოზიციური რისკი:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
ლაგ-ქარიშხალი ნაკადში:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) განხორციელების სიის სია (30-60 დღე)

  • სიგნალებისა და „ჭეშმარიტების“ კატალოგი ინციდენტებთან დაკავშირებით (სიგნალი, დრო).
  • ძირითადი ხაზები და სეზონური ძირითადი მეტრიკებისთვის (გამოშვების დაწყებამდე).
  • ადრეული სიგნალების წესები (გრადიენტები p99, lag, burn-rate).
  • დაშბორდები Risk/Lead Signals/Actions.
  • ინტეგრაცია ძაფებთან/კანარებთან, HPA- ს წინა სკალით.
  • ML კლასიფიკატორის მფრინავი ერთ დომენზე (მაგალითად, Payments).
  • პოლიტიკოსები HITL და საავტომობილო საქმიანობის ჟურნალი.
  • ხარისხის მეტრიკა და ალერტა მოდელის დრიფტზე/ჯანმრთელობაზე.

13) ანტი შაბლონები

კრისტალური ბურთები: რთული ML მოდელი ძირითადი ხაზების და მარტივი წესების გარეშე.
არ არსებობს აქტუალობა: ჩვენ პროგნოზირებთ „ცუდად“, მაგრამ ავტომატურად არაფერს ვაკეთებთ.
სეზონური/მოვლენების კალენდრის უგულებელყოფა (მატჩები/ტურნირები) ცრუ შფოთვა.
დროის ზონების ნაზავი არის არასწორი მეტრული/ინციდენტების ფანჯრები.
ექსპლუატაციის არარსებობა - უნდობლობა, გუნდების მიერ ღალატის გათიშვა.
ყველა დომენის/რეგიონის ერთი გლობალური ბარიერი დაბალი სიზუსტეა.

14) დომენის სპეციფიკა (iGaming)

Payments: პროვაიდერები/კვოტები, ზრდა 'retry _ rate' და 'circuit _ open' ადრეული ფეილოვერი.
Bets: კოეფიციენტების განახლების შეფერხება, WS გულშემატკივართა ზრდა - მაუწყებლობის ლიმიტი.
Games/Live: ნაერთების აურზაური, სტუდიების ლიმიტები, UI/ქეში დეგრადაცია.
KYC/AML: webhook შეფერხება, გადამოწმების სტრიქონი HITL და დაგვიანებული დამუშავება.

15) მეტრიკის და ალერტის მაგალითები (იდეები)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) KPI პროგნოზის პროგრამები

Pre-Incident Detect Rate (პრევენციული/შემსუბუქებული ინციდენტების წილი).
Avg Lead Time ინციდენტამდე.
Reduction in P1/P2 კვადრატული მეტრი/კვადრატული მეტრი.
MTTR (მოსალოდნელია ადრეული კონტექსტის გამო).
False Alarm Rate/Alert Fatigue (სტაბილურად).
Cost Avoidance (პრევენციული ზარალის/ჯარიმების/ოვერსკეილის შეფასება).

17) სწრაფი დაწყება (რეცეპტი)

1. ჩართეთ გრადიენტის წესები p99/lag და SLO-burn;

2. დაამატეთ კომპოზიციური პირობები პროვაიდერებისთვის;

3. დააკავშირეთ წინამორბედი ძაფებთან და წინა სკალთან;

4. მოხსენება „პროგნოზირება და ეფექტი“;

5. მფრინავი ML ერთ დომენში; მასშტაბური Precision/Recall- ის ზრდის შემდეგ.

18) FAQ

Q: რატომ უნდა დავიწყოთ ML გარეშე?
A: სეზონური ძირითადი ხაზები + გრადიენტები + კომპოზიციური წესები. ეს იძლევა Recall- ის შესამჩნევ ზრდას სირთულეების გარეშე.

Q: როგორ არ დაიხრჩო ხალხური პოზიტიური?
A: დააკავშიროთ სიგნალები, შეიყვანეთ ჰისტერეზი და დადასტურების დრო, დააკონფიგურიროთ per დომენის/რეგიონის ბარიერები, შეაფასეთ Precision და Alert Fatigue.

Q: რა არის პირველი, ვინც ავტომატიზაცია მოახდინა?
A: უსაფრთხო და შექცევადი: წინასწარი სკეიტი, ქეში/დეგრადაციის ჩართვა, კანარის პაუზა/როლბეკი, დადასტურებული სიგნალების დროს პროვაიდერის შეცვლა.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.