טעינה וחיזוי סיכונים
1) למה אתה צריך את זה
חיזוי עומס וסיכונים מספק את היכולת להכין תשתיות ותהליכים מראש לאירועי שיא (שחרורים, טורנירים, קמפיינים לקידום מכירות, גפרורים, חגים), מזעור הורדת זמן ועודף תקציבי. התוצאות רגילות ל:- תכנון ותיקצוב
- הגדרות SLO/SLI, תקציבי שגיאות, ומדיניות התראה
- בחירת אסטרטגיית שחרור (קנרית, כחול-ירוק, שיגור כהה);
- ניהול סיכונים: מניעת הידרדרות, תורים, הטלת עסקאות, קנסות SLA.
2) מושגים בסיסיים
טען את קצב האירועים/הפעולות הנכנסות (RPS, TPS, Events/sec) וכן את צריכת ה-CPU/RAM/IO/NET.
ביצועים ברי-קיבולת באופן עקבי ב-SLO נתון ובעלות.
סיכון: הסתברות x השפעה של אירוע לא רצוי (כשל SLA, תקרית, השלכה יתר).
אינדיקטורים מוקדמים: מדדים גדלים לפני התקרית (latency p95/p99, עומק התור, GC pauses, שיעור שגיאה, רוויה).
חדר הראש-היחס של קיבולת זמינה לעומס הנוכחי.
3) מקורות מידע ומדדים
מקורות: יומנים ומקטרים (פרומתאוס/OTEL), עקבות, אירועים עסקיים (קפקא), יומני CDN/WAF/ALB, נתוני מרקטק (קמפיינים), לוחות שנה אירועים, חיוב/עצמות (FinOps), תורים (קפקא/עצמות) ארנב), DB/מטמונים.
מדדי מפתח:- תנועה: RPS/TPS, משתמשים פעילים (DAU/MAU), הפעלות, המרת שלב.
- ביצועים: latency p50/p95/p99, breadput, שגיאות (4xx/5xx), פסקי זמן, תיקונים.
- CPU/LookAvg, RAM/GC, דיסק Iops/lat, רשת bw, שימוש בבריכת חיבור.
- תורים: גיבוי, פיגור, פיגור צרכני, זמן בתור.
- בקרה: QPS, מנעול ממתין, שאילתות איטיות, פיגור בשכפול.
- יחס פגיעה, קצב פינוי, מפתחות חמים.
- רמה עסקית: הפקדות/תעריפים לדקה, סירובי תשלום, תור KYC/AML.
- אמינות: SLI/SLO, שיעור צריבה בתקציב שגיאה (1h/6h/24h).
4) מודלים לחיזוי קו בסיס
1. דטרמיניסטי ולוח שנה: רגרסיה על נהגים ידועים (תאריך/זמן, גפרורים, טורנירים, בריכות שוק, גיאו, פלופי מניות).
2. סטטיסטית: סיבוניות/מגמה (ARIMA/ETS), רגרסיה עם חגים, גישות דמויות נביא.
3. ML/ensembles: gradient hosping/Random Forest/XGBoost/LightGBM; תוספות: מזג אוויר, שער חליפין, חדשות ספורט, אירועים מתחרים.
4. מעורבות: סטטיסטיקות לעונות בסיס + ML לגורמים אקסוגניים (קמפיינים, משחררים).
5. מכסות/כמויות: תחזית לא רק ממוצעת, אלא גם p90/p95 לתכנון חדר הראש.
יציאות מודל: חיזוי של RPS/TPS והתפלגויות latency/שגיאה ב- T + 1h/T + 24h/T + 7d/T + 30d אופקים עם מרווחי ביטחון.
5) תורים ומגבלות: תאוריית מיני
Little's Law: L = grough × W (מספר ממוצע במערכת = intensity × mean time).
צווארי בקבוק: DB/מטמון/אוטובוס/בריכת חיבור/API מספק גבולות.
רוויה: בעומס> 70-80% latency גדל לא לינארי.
Backpressure: הגנה על הצרכן מפני עומס יתר (גבולות, תורים, מדיניות הוצאה, השפלה).
6) תכנון קיבולת
שיטת SLO: נדרש p99 latency ושיעור שגיאה מתקבל על הדעת.
שיטת ”מהתרחישים”: משחק ליגת האלופות, ”יום שישי השחור”, ”טורניר בקנה מידה גדול” = הכמויות העליונות של תנועה + כשל של AZ/node אחד.
שיטה ”מודעת עלות”: בחר הגדרות על ידי $/RPS, לוקח בחשבון הנחות, הזמנות, ספוט/מנויים, אוטוסקלינג.
חפצים: מודל קיבולת לכל שירות, גבולות ומכסות (API, DB, תורים), שולחן פעולה לבקבוק (חוד, מטמון, העתק, CQRS, async).
7) ניהול סיכונים
רישום סיכונים: זיהוי, תיאור, הסתברות, השפעה (מימון/SLA/רגולטורי), בעלים, תוכניות מניעה/תגובה.
קטגוריות: עומס (עומס יתר), תשתיות (AZ/אזור נכשל), תלויות (ספקי תשלום), שחרור (רגרסיה), מוצר (קמפיין המריא חזק יותר מהציפיות), ציות (גבולות/רגולטור).
מטריצה: מפת חום (Low/Medium/High × Impact).
(KRI (Key Risk Indicators: תור לעומק, צמיחת p99, ירידה ביחס להיט, קצב צריבה> 2 ×, שגיאות ספק.
8) אזהרה מוקדמת והתראה
אזהרה מוקדמת: גידול ב-p95, ירידה במטמון, צמיחה באיחור בזנב, צמיחה חוזרת/זמן, עלייה בצריכה.
התראות בקצב צריבה על שגיאות תקציב: מהר (1) וחלונות איטיים (6-24h).
התראות מבוססות סף ואנומליה: סף בסיס + מודלים אנומליים (IQR, STL, גלאי זרם).
צבירה אותות: התאמה של שחרור/פישפלאג/אירועי קמפיין עם השפלה.
9) ניתוח תרחיש ו ”מה-אם”
”אם צמיחת תנועה + 60% תוך 10 דקות?”
”אם CDN/WAF יחתוך 5% מהתנועה החוקית?”
”אם ספק התשלום מאבד 30% מההרשאות?”
עבור כל תרחיש: מדדים צפויים, צווארי בקבוק, מדרגות השפלה (Toggle offices non-critical), מדדים ידניים/אוטומטיים, ספקי מיתוג.
10) בדיקה ואימות של תחזיות
בדיקות עומס: תנועה סינתטית (k6/JMeter/Locust), פרופילי מיקס אמיתיים.
ימי משחק/כאוס: לנטרל AZ, להשפיל את בסיס הנתונים, למצות את הבריכה.
Shadow/Dark: התנועה ”אל תוך הצל” של הנתיב החדש מבלי להשפיע על המעבד.
רטרוספקטיבה מדויקת: MAPE/SMAPE/RMSE + לאחר המוות "איפה טעית? ”.
11) תהליכים ותפקידים
RASI:- אחראי: SRE/פלטפורמה/DS אנליסטים.
- אחראי: ראש המבצעים/SRE.
- ייעוץ: Dev Leads, שיווק, פיננסים (FinOps).
- מידע: תמיכה/ציות/עסק.
- עדכוני תחזית שבועיים, תיקוני SLO/קיבולת חודשיים, חדרי טרום אירועים.
12) כלים וערימה
נתונים: קפקא, ClickHouse/BigQuery, Lake/DWH, dbt.
ניטור: פרומתאוס, גראפנה, טמפו/יגר, לוקי/ELK, אוטל.
ML/תחזיות: Airflow/Argo, חנות תכונה, דגמי ARIMA/ETS/GBM, שירות תחזיות (gRPC/Rest).
k6/JMeter/Locust, זריקת פגם/כאוס.
ניהול: Feature Flags, Autoscaling (HPA/KEDA), Policy-as-Code.
FinOps: Explorer עלות, showback/chargback, $/RPS לוחות מחוונים.
13) תרגול יישום (מפת דרכים)
1. מלאי של מדדים ותלויות * מפת נתיב קריטית (deposit, rate, put).
2. SLO/SLI ותקציבי השגיאות * המטרה p95/p99, שיעורי שגיאה, התראות כוויות.
3. איסוף נתונים וניקוי * שכבה אחת של אירוע/מטרי, שכפול, איחוי.
4. תחזית עונתית בסיסית * תבניות יום/שבוע, חגים/גפרורים.
5. התרחבות ע "י נהגים. קמפיינים בשוק, משחררים, גאו, חלונות תשלום.
6. מודלים קיבולת על ידי שירותים = חדר ראש, גבולות, צווארי בקבוק, תוכנית אופטימיזציה.
7. תרחיש ”מה-אם” ושולחן השפלה (להרוג-מתגים, לקרוא בלבד, חסד).
8. אימות באמצעות בדיקות/צללים = התאמה של מודלים וסף.
9. תחזיות שבועיות, ביקורות לפני האירוע, רטרו לאחר האירוע.
10. אוטוסקלה אוטומטית על פי התחזית, החלפה אוטומטית של ספקים, אוטומטי פישפלאגים.
14) תרופות אנטי ־ פטריות
”מדיום בלבד” תחזית ללא p95/p99 זנבות.
התעלמות מתורים ובריכות - בעיות צצות בשיאן.
מדריך לעין ללא אימות ומדדי דיוק.
אין קישור כפול עלויות איתור יתר.
חוסר בתכנית השפלה ופישפלאגים.
15) לוחות מחוונים ודיווח
לוח מחוונים: תחזית RPS/TPS (p50/p90/p95), חדר ראש, כרטיס סיכון, קצב צריבה.
לוח המחוונים טק: p95/p99 latency על ידי שירותים, תורים/lag, להיט-ratio, מאגר חיבור, מסד נתונים/מטמון, גבולות API חיצוניים.
פיננסית: $/RPS, תחזית עלות, אפקט אופטימיזציה.
דיוק תחזית: בפועל נגד תחזית, שגיאת מחזור/גיאו/ערוץ.
16) תבניות חפץ
רשום סיכונים: זיהוי, סיכון, הסתברות/פגיעה, בעלים, KRI, תכנית מניעה, תוכנית תגובה.
גיליון קיבולת: שירות, תפוקה נוכחית, הגבלה, צוואר בקבוק, חדר ראש, נדרש הרחבה, זמן הגעה משוער/עלות.
מה-אם קלפים: תרחיש, גורמי קלט, מדדים צפויים, פעולות, קריטריונים להשלמה.
Poolbook Degrade: רשימת תכונות לנטרול, רמות QOS, מסלולים מטמון/סטטי, גבולות Time/timeout.
17) פונקציות מפתח KPI
הוצאה להורג של SLO (% מהתקופות ביעד), זמן תגובה לאינדיקטורים מוקדמים, דיוק תחזית (MAPE/SMAPE), מספר תקריות הנובעות מעומס יתר, נתח של קנה מידה אוטומטי, חיסכון של $/RPS ללא הידרדרות SLO.
סך הכל
חיזוי מערכת של עומס וסיכונים הוא צרור: מידע איכותי = מדדים משמעותיים = מודלים ברי בדיקה = תרחישים וספרי משחק = אוטומציה של הגדלה והשפלה. קונטור זה מספק יציבות, חיזוי עלויות וחוויית משתמש יציבה אפילו בפסגות קיצוניות.