GH GambleHub

Operations and Ac.Management Conference

חיזוי תקריות

1) למה אתה צריך את זה

מקרים נדירים "מתפוצצים משום מקום. לפני הכישלון, הפלטפורמה נותנת אותות: צמיחה מואצת של p99, שחיקה איטית של תקציב השגיאות, תור מפגר, גידול של מגשים מחדש במורד הזרם, תחזית תקרית מערכתית מתרגמת את התגובה מ ”כיבוי אש” ל ”התערבות מוקדמת”, הפחתת MTTR, שינוי שיעור הכישלון והפסדי הכנסות.

מטרות:
  • זהה תבניות מקדימות ואתחל אוטומטית בפעולות מונעות.
  • הפחת את נתח P1/P2 על ידי הזזה שמאלה (קצב זיהוי מראש).
  • לבנות תחזיות לתהליכים של שחרור, פליאובר וקיבולת מראש.

2) מדדי עופרת

פלטפורמה/אינפרה:
  • האצה p95/p99 (גרדיאנט), ”זנבות” של עיכובים, עלייה בשונות.
  • תורים/זרמים: growth 'lag' ו lag נגזרת חיובית; HPA במקסימום.
  • DB/cache: ”active _ conns/max _ conns”, ”שכפול _ לאג”, ”פינוי”, drop ”cache _ hit”.
  • רשת: mTLS/לחיצת יד שגיאות, 5xx/timeout צמיחה כלפי חוץ.
תלויות/ספקים:
  • 'autbound _ ary _ rate '/' retry _ rate' לספק מסוים, 'circuit _ open', 'מכסה _ שימוש> 0. 9`.
  • חלונות מתוכננים, השפלה.
מוצר/עסק:
  • עומס אבנורמלי (קמפיינים/התאמות), קפיצות RPS/TPS, מיקסים אזוריים/ערוצים יוצאי דופן.
  • מרבץ/קצב טיפות המרה עם p99 גדילה * תקרית קוואזי-פרוקסי.
שכבת SLO:
  • שרף-דרגה שגיאה-תקציב> סף (לדוגמה,> 4 × במשך 10-15 דקות).
  • הפרות מזעריות תכופות של SLO (מיקרו-דלדול) כסמן לכישלון מתקרב.

3) מקורות מידע ומאגרי מידע

טלמטריה מקוונת: Prometheus/Otel (מטריות, יומנים, שבילים).
אירועי תקרית: כרטיסים/סטטוסים/פוסטמורטים (נכון למטרה).
שינוי בתכנית/עובדות: שחרור, פישפלאגים, נדידה, חלונות מספקים.
ספריות: מפת תלות, מכסות, בעלים.
תצלומי DWH: יחידות לאימון/אימות (חלון סינכרוני!).

דרישות איכות: 99% שלמות, יישור TZ שעה/דקה, הגדרות p95/p99 אחידות.

4) גישות חיזוי

4. 1 לא פרמטרי/כללים (התחלה מהירה)

התראות סף עבור קצב שינוי: 'deriv (p99)', 'z-scoin' עבור חלונות קצרים.
תנאים מורכבים: lag djojer + HPA = max + circuit_open (ל- ”PSP-X”).
שערי SLO-Burn: שחרור/עצירה קנרית בקצב צריבה> X.

4. 2 גילוי אנומליה

קווי בסיס עונתיים (רעיונות דמויי נביא/STL), מגלגלים חציוניים + MAD.
Multivariate: unomaly 'p99 + retry + open_circuit + מכסה.
זיהוי נקודת שינוי: CUSUM/BOCPD למשמרות מגמה.

4. 3 דגמי ML (בפיקוח)

סיווג ”תקרית בטי + קיי?” על ידי חלון תכונה (לדוגמה, 10-30 דקות לפני).
מאפיינים: סטטיסטיקות, נגזרות, משקעים עונתיים, ספקים/אזורים חמים אחד, לשחרר דגלים.
תוויות: 'incident{severity∈[P1,P2 ]' במרווח [ t, t + K ].
הסברים: SHAP/PERMUTATION Superation for trust and operability.

4. 4 ההיברידי הראשון של SRE

סיכון ניקוד (0-1) action policy (phicheflags/feilover/pre-scale), עם HITL לביקורת.

5) הנדסת מאפיינים

חלונות מחליקים (1/5/15 דקות): ממוצע, p95/p99, std, max, שיפוע.
אינדיקטורים יחסיים: ”p99/bassline _ 1d”, ”שגיאה _ rate _ delta”.
תכונות קוהורטה: ספק, אזור, סוג משחק/התאמה, ערוץ התקן.
מאפייני ”טעינה”: RPS, גודל מטען, מספר WS פתוח.
מערכת: ”hpa _ רצוי/max”, ”db _ conn _ ratio”, ”redis _ evictions> 0”.
דגלי אירוע: ”שחרור בתהליך”, ”קנרית 10%”, ”חלון ספק”.

6) מכניקת חיזוי ופעולות

שרשרת החלטות:

1. סיכון ניקוד כל N שניות לפי תחום (תשלומים/הימורים/משחקים/KYC).

2. מדיניות התראה:
  • סיכון 0. 8 + אותות אישור לעמוד בעל התחום;
  • 0. 6–0. = 8 אזהרה + הכנת אמצעים.
3. אמצעי הגנה:
  • טרום סריקה (HPA minReplicas likes), מתן מטמונים, הגבלת תפקודים כבדים;
  • עבור לספק גיבוי/מסלול
  • הפוגה/ריבוי קנריות;
  • מגבלת המגש ל ”צר” במורד הזרם.
  • 4. אדם מאשר מדדים של ”שינוי בהתנהגות העסקית”.

7) שילוב בתהליכים יומיומיים

שחרור: שערי ניבוי על קנריות (לפני/אחרי השוואה וסיכון ניקוד).
פיילובר: הכנה אוטומטית/חימום של מסלול הגיבוי בסיכון של הספק.
קיבולת: ”התרוממות רוח מוקדמת” עם נפילה בסלון הראש ועלייה בשכר.
התראות: הזנה נפרדת ”טרום תקרית” + הערות בלוחות מחוונים.

8) יכולת תצפית ולוחות מחוונים

סקירת סיכונים: סיכון על ידי תחום וספק, מגמות, תרומת תכונה.
אותות עופרת: מפתחי טופ-אן (p99 גרדיאנט, לג, מפסקים פתוחים).
פעולות ותוצאות: מה שנדלק, השפעה על p95/שגיאה, תקריות בוטלו.
בריאות מודל: דיוק/חזרה/איחור, סחיפה של סימנים, תדירות של פעולות אוטומטיות.

9) מדדי איכות חיזוי

recall @ P1/P2 (רגישות תקרית קריטית).
דיוק (פחות ”דפי שקר”).
זמן עופרת (חציוני ”כמה דקות לפני המעשה”).
Intervention Win-rate (הפרופורציה של מקרים בהם הפעולה הפחיתה סיכון/עלות).
התראה על אינדקס עייפות (התראה/הזזה/אדם).
ציון דריפט (Stat. הבדלים בחלוקת התכונות נגד תקופת האימונים).

מטרות ברירת המחדל הן Recall (P1) index 0. 7, דיוק 0. 6, חציון זמן עופרת 8-10 דקות.

10) ניהול סיכונים מודל (ML Ops/Government)

נתונים/קוד/פריט ויסונינג, רבייה.
צ 'מפיון/צ' לנג 'ר: הדגם החדש פועל במקביל, לא מקוון/מקוון.
סחיפה: PSI/KL-divergence, הספרה אוטומטית של הסף, התראה ”המודל מיושן”.
הסבר: עבור כל פתרון, שמור את חשיבות התכונות והקישור לנתונים.
ביטחון/אתיקה: גישה, מיסוך מח "ש, שליטה על פעולות אוטומטיות על ידי פוליטיקאים.

11) כללי דגימה ומדיניות

SLO-Burn וקנרית (קונספט):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
סיכון מרוכב לספק:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
סערת לאג בהזרמה:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) רשימת מימושים (30-60 יום)

[ ] קטלוג אותות ו ”אמיתות” על ־ ידי אירועים (חומרה, צירי זמן). ‏
[ ] Baseline and Seasonality for key metrics (pree/post release).
[ ] כללי האות המוקדמים (p99, lag, burn-rate gradients).
[ ] סיכונים/עופרת אותות/פעולות לוחות מחוונים.
[ ] אינטגרציה עם פישפלאגים/קנריות, קדם קנה מידה HPA.
[ ] טייס מסווג ML באותו תחום (לדוגמה: תשלומים).
[ ] מדיניות HITL ויומן פעילות אוטומטית.
[ ] מדדי איכות והתראות למודל סחיפה/בריאות.

13) אנטי דפוסים

”כדורי קריסטל”: מודל ML מורכב ללא קווי בסיס וכללים פשוטים.
אין פעולה: אנחנו חוזים ”רע”, אבל אנחנו לא עושים שום דבר באופן אוטומטי.
התעלמות מעונות עונה/לוח שנה של אירועים (התאמות/טורנירים) * אזעקות שווא.
ערבוב אזורי זמן כפול מדדים/חלונות תקרית לא נכונים.
חוסר בירור = חוסר אמון, מנטרל את המנבא עם פקודות.
סף גלובלי יחיד לכל התחומים/האזורים. דיוק נמוך.

14) מפרט דומיין (iGaming)

תשלומים: ספקים/מכסות, צמיחה ”retry _ rate” ו- ”circuit _ open” = זיוף מוקדם.
הימורים: עיכוב בעדכון מקדמים, מאוורר WS מבטל את הגבלת השידור.
Games/Live: Knocking Spikes, Studio Labels # UI Delegradation/caches.
KYC/AML: עיכובים ברשת, תורים לאימות = HITL ועיבוד דחוי.

15) דוגמאות של מדדים והתראות (רעיונות)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) תוכנית חיזוי KPI

קצב זיהוי התקרית מראש.
זמן עופרת Avg לפני האירוע.

הפחתת P1/P2 QQ

MTTR (צפוי עקב ההקשר המוקדם).
אזעקת שווא קצב/התראה עייפות (estable rate).
עלות הימנעות.

17) התחלה מהירה (מתכון)

1. אפשר כללי שיפוע על p99/lag ו-SLO-burn;

2. הוסף תנאים מורכבים לספקים;

3. קישור התחזית לפישפלאגים וקדם קנה מידה;

4. תחזית * action action # effect report;

5. טייס ML בתחום אחד; קנה מידה לאחר דיוק/חזרה גדל.

18) FAQ

ש: איפה להתחיל בלי מ "ל?
A: קווי בסיס עונתיים + גרדיאנטים + כללים מורכבים. זה נותן עלייה בולטת ב Recall ללא סיבוכים.

קיו: איך לא לטבוע בחיובים עממיים?
A: שילוב אותות, הזן זמן היסטרציה ואישור, התאמת סף לכל תחום/אזור, הערכת דיוק ועייפות התראה.

ש: אילו פעולות לבצע קודם?
A: בטוח והפיך: קדם-קנה מידה, מאפשר מטמונים/הידרדרות, הפסקה/גלגול קנריות, מעביר ספק על אותות מאומתים.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.