Operations and Ac.Management Conference
חיזוי תקריות
1) למה אתה צריך את זה
מקרים נדירים "מתפוצצים משום מקום. לפני הכישלון, הפלטפורמה נותנת אותות: צמיחה מואצת של p99, שחיקה איטית של תקציב השגיאות, תור מפגר, גידול של מגשים מחדש במורד הזרם, תחזית תקרית מערכתית מתרגמת את התגובה מ ”כיבוי אש” ל ”התערבות מוקדמת”, הפחתת MTTR, שינוי שיעור הכישלון והפסדי הכנסות.
מטרות:- זהה תבניות מקדימות ואתחל אוטומטית בפעולות מונעות.
- הפחת את נתח P1/P2 על ידי הזזה שמאלה (קצב זיהוי מראש).
- לבנות תחזיות לתהליכים של שחרור, פליאובר וקיבולת מראש.
2) מדדי עופרת
פלטפורמה/אינפרה:- האצה p95/p99 (גרדיאנט), ”זנבות” של עיכובים, עלייה בשונות.
- תורים/זרמים: growth 'lag' ו lag נגזרת חיובית; HPA במקסימום.
- DB/cache: ”active _ conns/max _ conns”, ”שכפול _ לאג”, ”פינוי”, drop ”cache _ hit”.
- רשת: mTLS/לחיצת יד שגיאות, 5xx/timeout צמיחה כלפי חוץ.
- 'autbound _ ary _ rate '/' retry _ rate' לספק מסוים, 'circuit _ open', 'מכסה _ שימוש> 0. 9`.
- חלונות מתוכננים, השפלה.
- עומס אבנורמלי (קמפיינים/התאמות), קפיצות RPS/TPS, מיקסים אזוריים/ערוצים יוצאי דופן.
- מרבץ/קצב טיפות המרה עם p99 גדילה * תקרית קוואזי-פרוקסי.
- שרף-דרגה שגיאה-תקציב> סף (לדוגמה,> 4 × במשך 10-15 דקות).
- הפרות מזעריות תכופות של SLO (מיקרו-דלדול) כסמן לכישלון מתקרב.
3) מקורות מידע ומאגרי מידע
טלמטריה מקוונת: Prometheus/Otel (מטריות, יומנים, שבילים).
אירועי תקרית: כרטיסים/סטטוסים/פוסטמורטים (נכון למטרה).
שינוי בתכנית/עובדות: שחרור, פישפלאגים, נדידה, חלונות מספקים.
ספריות: מפת תלות, מכסות, בעלים.
תצלומי DWH: יחידות לאימון/אימות (חלון סינכרוני!).
דרישות איכות: 99% שלמות, יישור TZ שעה/דקה, הגדרות p95/p99 אחידות.
4) גישות חיזוי
4. 1 לא פרמטרי/כללים (התחלה מהירה)
התראות סף עבור קצב שינוי: 'deriv (p99)', 'z-scoin' עבור חלונות קצרים.
תנאים מורכבים: lag djojer + HPA = max + circuit_open (ל- ”PSP-X”).
שערי SLO-Burn: שחרור/עצירה קנרית בקצב צריבה> X.
4. 2 גילוי אנומליה
קווי בסיס עונתיים (רעיונות דמויי נביא/STL), מגלגלים חציוניים + MAD.
Multivariate: unomaly 'p99 + retry + open_circuit + מכסה.
זיהוי נקודת שינוי: CUSUM/BOCPD למשמרות מגמה.
4. 3 דגמי ML (בפיקוח)
סיווג ”תקרית בטי + קיי?” על ידי חלון תכונה (לדוגמה, 10-30 דקות לפני).
מאפיינים: סטטיסטיקות, נגזרות, משקעים עונתיים, ספקים/אזורים חמים אחד, לשחרר דגלים.
תוויות: 'incident{severity∈[P1,P2 ]' במרווח [ t, t + K ].
הסברים: SHAP/PERMUTATION Superation for trust and operability.
4. 4 ההיברידי הראשון של SRE
סיכון ניקוד (0-1) action policy (phicheflags/feilover/pre-scale), עם HITL לביקורת.
5) הנדסת מאפיינים
חלונות מחליקים (1/5/15 דקות): ממוצע, p95/p99, std, max, שיפוע.
אינדיקטורים יחסיים: ”p99/bassline _ 1d”, ”שגיאה _ rate _ delta”.
תכונות קוהורטה: ספק, אזור, סוג משחק/התאמה, ערוץ התקן.
מאפייני ”טעינה”: RPS, גודל מטען, מספר WS פתוח.
מערכת: ”hpa _ רצוי/max”, ”db _ conn _ ratio”, ”redis _ evictions> 0”.
דגלי אירוע: ”שחרור בתהליך”, ”קנרית 10%”, ”חלון ספק”.
6) מכניקת חיזוי ופעולות
שרשרת החלטות:1. סיכון ניקוד כל N שניות לפי תחום (תשלומים/הימורים/משחקים/KYC).
2. מדיניות התראה:- סיכון 0. 8 + אותות אישור לעמוד בעל התחום;
- 0. 6–0. = 8 אזהרה + הכנת אמצעים.
- טרום סריקה (HPA minReplicas likes), מתן מטמונים, הגבלת תפקודים כבדים;
- עבור לספק גיבוי/מסלול
- הפוגה/ריבוי קנריות;
- מגבלת המגש ל ”צר” במורד הזרם.
4. אדם מאשר מדדים של ”שינוי בהתנהגות העסקית”.
7) שילוב בתהליכים יומיומיים
שחרור: שערי ניבוי על קנריות (לפני/אחרי השוואה וסיכון ניקוד).
פיילובר: הכנה אוטומטית/חימום של מסלול הגיבוי בסיכון של הספק.
קיבולת: ”התרוממות רוח מוקדמת” עם נפילה בסלון הראש ועלייה בשכר.
התראות: הזנה נפרדת ”טרום תקרית” + הערות בלוחות מחוונים.
8) יכולת תצפית ולוחות מחוונים
סקירת סיכונים: סיכון על ידי תחום וספק, מגמות, תרומת תכונה.
אותות עופרת: מפתחי טופ-אן (p99 גרדיאנט, לג, מפסקים פתוחים).
פעולות ותוצאות: מה שנדלק, השפעה על p95/שגיאה, תקריות בוטלו.
בריאות מודל: דיוק/חזרה/איחור, סחיפה של סימנים, תדירות של פעולות אוטומטיות.
9) מדדי איכות חיזוי
recall @ P1/P2 (רגישות תקרית קריטית).
דיוק (פחות ”דפי שקר”).
זמן עופרת (חציוני ”כמה דקות לפני המעשה”).
Intervention Win-rate (הפרופורציה של מקרים בהם הפעולה הפחיתה סיכון/עלות).
התראה על אינדקס עייפות (התראה/הזזה/אדם).
ציון דריפט (Stat. הבדלים בחלוקת התכונות נגד תקופת האימונים).
מטרות ברירת המחדל הן Recall (P1) index 0. 7, דיוק 0. 6, חציון זמן עופרת 8-10 דקות.
10) ניהול סיכונים מודל (ML Ops/Government)
נתונים/קוד/פריט ויסונינג, רבייה.
צ 'מפיון/צ' לנג 'ר: הדגם החדש פועל במקביל, לא מקוון/מקוון.
סחיפה: PSI/KL-divergence, הספרה אוטומטית של הסף, התראה ”המודל מיושן”.
הסבר: עבור כל פתרון, שמור את חשיבות התכונות והקישור לנתונים.
ביטחון/אתיקה: גישה, מיסוך מח "ש, שליטה על פעולות אוטומטיות על ידי פוליטיקאים.
11) כללי דגימה ומדיניות
SLO-Burn וקנרית (קונספט):
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
סיכון מרוכב לספק:
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
סערת לאג בהזרמה:
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12) רשימת מימושים (30-60 יום)
[ ] קטלוג אותות ו ”אמיתות” על ־ ידי אירועים (חומרה, צירי זמן).
[ ] Baseline and Seasonality for key metrics (pree/post release).
[ ] כללי האות המוקדמים (p99, lag, burn-rate gradients).
[ ] סיכונים/עופרת אותות/פעולות לוחות מחוונים.
[ ] אינטגרציה עם פישפלאגים/קנריות, קדם קנה מידה HPA.
[ ] טייס מסווג ML באותו תחום (לדוגמה: תשלומים).
[ ] מדיניות HITL ויומן פעילות אוטומטית.
[ ] מדדי איכות והתראות למודל סחיפה/בריאות.
13) אנטי דפוסים
”כדורי קריסטל”: מודל ML מורכב ללא קווי בסיס וכללים פשוטים.
אין פעולה: אנחנו חוזים ”רע”, אבל אנחנו לא עושים שום דבר באופן אוטומטי.
התעלמות מעונות עונה/לוח שנה של אירועים (התאמות/טורנירים) * אזעקות שווא.
ערבוב אזורי זמן כפול מדדים/חלונות תקרית לא נכונים.
חוסר בירור = חוסר אמון, מנטרל את המנבא עם פקודות.
סף גלובלי יחיד לכל התחומים/האזורים. דיוק נמוך.
14) מפרט דומיין (iGaming)
תשלומים: ספקים/מכסות, צמיחה ”retry _ rate” ו- ”circuit _ open” = זיוף מוקדם.
הימורים: עיכוב בעדכון מקדמים, מאוורר WS מבטל את הגבלת השידור.
Games/Live: Knocking Spikes, Studio Labels # UI Delegradation/caches.
KYC/AML: עיכובים ברשת, תורים לאימות = HITL ועיבוד דחוי.
15) דוגמאות של מדדים והתראות (רעיונות)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16) תוכנית חיזוי KPI
קצב זיהוי התקרית מראש.
זמן עופרת Avg לפני האירוע.
הפחתת P1/P2 QQ
MTTR (צפוי עקב ההקשר המוקדם).
אזעקת שווא קצב/התראה עייפות (estable rate).
עלות הימנעות.
17) התחלה מהירה (מתכון)
1. אפשר כללי שיפוע על p99/lag ו-SLO-burn;
2. הוסף תנאים מורכבים לספקים;
3. קישור התחזית לפישפלאגים וקדם קנה מידה;
4. תחזית * action action # effect report;
5. טייס ML בתחום אחד; קנה מידה לאחר דיוק/חזרה גדל.
18) FAQ
ש: איפה להתחיל בלי מ "ל?
A: קווי בסיס עונתיים + גרדיאנטים + כללים מורכבים. זה נותן עלייה בולטת ב Recall ללא סיבוכים.
קיו: איך לא לטבוע בחיובים עממיים?
A: שילוב אותות, הזן זמן היסטרציה ואישור, התאמת סף לכל תחום/אזור, הערכת דיוק ועייפות התראה.
ש: אילו פעולות לבצע קודם?
A: בטוח והפיך: קדם-קנה מידה, מאפשר מטמונים/הידרדרות, הפסקה/גלגול קנריות, מעביר ספק על אותות מאומתים.