הקצאת משאבים
1) משימה ועקרונות
הקצאת משאבים היא דרך שיטתית להתאים את הביקוש (עומס, פרויקטים, תקריות) עם היצע (CPU/RAM/IO/network, רישיונות, אנשים, תקציבים) עבור הגבלות SLOs ו-FinOps.
עקרונות בסיסיים:- SLO-ראשית: למשאב יש מטרה איכותית; בחירה היא כלי לעמוד בו.
- הגינות + עדיפות: חלק הוגן לכולם, אבל ערבויות הן בעדיפות ראשונה.
- בידוד: להגביל פיצוץ-רדיוס "gluttonous' עומסים.
- אלסטיות: התרחבות/התכווצות אוטומטית לדרישה בפועל.
- עלות מודעת: לכל משאב נוסף צריכה להיות השפעה מובנת על SLO/הכנסות.
- פתרונות מאומתים על ידי טלמטריה וניסויים.
2) טקסונומיה משאבים
מחשוב: מעבד/זיכרון/GPU, בריכות מכולות, מכסות ללא סרבלים.
אחסון: IOPS/תפוקה, שכבות חמות/קרות, מטמון.
רשת: יציאה/כניסה, CDN, ערוצים פרטיים, בריכות IP.
נתונים: חריצים/חלונות משאבים ב DWH/הזרמה, חלונות הילוך אחורי.
אנשים: חריצים בכוננות, IC/Release, SRE/Dev time (שעות/ספרינט).
ספקים: גבולות ספק (PSP/KYC/CDN), מגבלות קצב וחיבורים.
3) מודל עדיפות (תיק)
Tier-0: זרימה חיונית (התחברות, תשלומים). משאבים מובטחים, בריכות אישיות.
Tier-1: business critical (מוצר ליבה, מדווח די-1). מכסות מועדפות.
Tier-2/3: סיוע/מחקר. רצוף, מגבלות תקציב.
פרוייקטים: Impact × Expercency × Security × Oxt Cost Late Acc התאמת תיק ההשקעות/SAV.
4) מדיניות הקצאה (ערבויות, מכסות, גבולות)
מובטח (ייעודי): נתח/רזרבה קבועה; בשביל Tier-0/1.
Burstable: מכסת בסיס + זכות ללוות עד הגבול.
המאמץ הטוב ביותר: אין ערבויות, ניתן להחליף.
מכסה/הגבלה: כל המכסות והגבולות מתוארים באופן הצהרתי (מאגר מדיניות).
תקציב הפרעה/פוד: מי יכול להיות מגורש ובאיזו מהירות.
מכסות רשת: יציאה/דייר, מגבלות על חיבורים לספקים.
5) עמידות ובידוד
שם/חשבון לדייר: מגבלות אישיות, תקציב, ביקורת.
שכנים רועשים: cgroups/בקשות/limits/IO-חונק; צמתים נפרדים למשימות ”כבדות”.
P95-isolation: SLO מחושב על ידי אחוזים, לא ממוצעים; פרץ לא צריך לשבור את p95 שכנים.
שכבת נתונים: שכבות אחסון נפרדות ומטמונים לאזורים VIP/.
6) קנה מידה אוטומטי וגמישות
HPA/VPA/Cluster-autoscaler: scale by SLI proxy (latency p95, תור לעומק), לא רק מעבד.
קנה מידה מתוכנן: מראש עבור חלונות/אירועים שיא.
בריכות חמות: צמתים מחוממים/חיבורים לקשקשים מהירים.
רשת/CDN: איזון מחדש אוטומטי על ידי RUM/Anycast/POP.
7) תורים, שיעורי שירות ו ־ SLAs
כיתות: ”זהב/כסף/ארד” עם זמני ההמתנה היעד ותקציבי שגיאה.
תורים/אוטובוסים: עדיפות, חבורות אישיות Tier-0, DLQ.
תרמיל גב: טיפה/צורה/תחומים איטיים להגנה על הליבה.
פסקי זמן הסתגלות/מגשים מחדש: עבור כיתת השירות והמצב הנוכחי.
8) משאבי אנוש
משמרות וכיסוי: משחק תנועה (המשך השמש), P1 + P2 מוכפל בשיאו.
מיקוד SRE/DeV: אחוז הזמן לכל תגובה/פרואקטיבית (למשל 50/50) עם KPI.
משאבי בקשה: תבניות RFC לשעות/ספרינט, תור עדיפות שקוף.
9) מודל פיננסי (FinOps)
כלכלת יחידה: בקשות $/1k, תשלום $/מוצלח, יומני $/GIB.
תקציבים והתראות: מכסות לחשבונות/דיירים, אזהרות על תשלום יתר.
אופטימיזציה: אחסון חם/חם/קר, דגימת יומן, בריכות מיקום ללא קריטיות.
Showback/Chargback: דוחות עלות על ידי צוות/דייר להניע ביצועים.
10) ניהול ספקים
גבולות וחלונות: חוזה TPS ותורים ב- PSP/KYC/CDN; חלונות מתוכננים בלוח השנה.
פרופילי כשל: משקולות וניתוב בין ספקים מרובים.
מדדי דופק: זמן תגובה, עמידות, עלות/פעולה מוצלחת.
11) מדדי בגרות חלוקה
דבקות SLO לפי ציון:% ציות בזהב/כסף/ברונזה.
יעילות משאבים: CPU/RAM/IO שימוש (median/p95), שיתוף סרק.
עלות לכל SLO-point: שינוי במחיר החזקת היעד של SLO.
קצב חניקה/מניעה: באיזו תדירות ולמי אנו מעבירים.
נקודה חמה MTTA: בריכה/דייר התחממות יתר זמן התגובה.
אינדקס הוגנות: עיכוב/מכסה התפשטה בין הדיירים (גיני/וריאציה).
12) רשימות בדיקה
לפני שינוי ההתפלגות
[ ] מוגדרות מטרות SLO ושירות כיתה.
[ ] יש טלמטריה באמצעות עומס (p95/p99, צמיחה, עונתיות).
[ ] מכסות/גבולות מתוארים בגיט ונסקרים.
[ ] השפעות על שכנים (בדיקות בידוד) נבדקו.
[ ] תוכנית רולבק ומעקות בטיחות מוכנות.
חדר ניתוח שבועי
[ ] מפת חימום של סילוק בריכה ודו "ח נקודה חמה.
דו "ח [ ] FinOps: $/יחידה, יתר על המידה, חריגות.
[ גבולות הספק ] ותאונות סל "א ממולאים.
[ תורים ]: עיכוב בשיעורים, ללא צום.
[ ] CAPA על ידי צווארי בקבוק מזוהים בעבודה.
13) תבניות (רעיונות)
13. מדיניות מכסה 1 (YAML)
yaml tenant: vip-eu class: gold compute:
cpu:
request: "8000m"
limit: "12000m"
memory:
request: "16Gi"
limit: "24Gi"
storage:
tier: hot iops_min: 8000 network:
egress_mbps_cap: 500 slo:
latency_p95_ms: 250 preemption:
protected: true burst:
allowed: true max_factor: 1.5
13. 2 פרופיל זום אוטומטי (שבר)
yaml autoscaling:
metric: "queue_depth" # или biz_sli.payment_latency_p95 target: 200 min_replicas: 6 max_replicas: 60 warm_pool: 4 cooldown_sec: 120
13. 3 כיתת שירות ותורים
yaml class: gold sla:
wait_p95_ms: 150 queue:
partition: "gold-eu"
retry_policy:
attempts: 2 backoff_ms: 200 backpressure: "shape" # иначе drop/slow
13. 4 טענת משאבים (אנשים)
RFC: RES-OPS-2025-11
Цель: усилить on-call P2 на пике ноябрьских промо (EU)
Период: 2025-11-25..2025-12-05
Обоснование: прогноз трафика +30%, прошлогодний p95 MTTA ↑
Запрос: +1 P2 слот/сутки, +IC в prime-time
14) נהלים ואוטומציה
חישוב מכסות מההיסטוריה של התנועה ומטרות ה-SLO, יחסי ציבור למאגר המדיניות.
מעקות-רובוט: עצור אות כדי לבזוז כאשר המכסה/ביקוש יתר אינו מספיק.
בוט תקשורת: הודעות של צוותים על התנפלות יתר/התנפלות/שינוי כיתה.
אנוטציות: תחזוקה משחררת/חלונות משנים משקולות/מכסות למשך העבודה (הסרת הדיכוי לאחר מכן).
15) אנטי דפוסים
הדגש ”על ידי תחושה”, ללא SLO וטלמטריה.
בריכה אחת גדולה לכולם ללא בידוד ”שכנים רועשים”.
פרץ בלתי נשלט ללא גבול עליון * ”לחנוק” שכנים.
מחסור בתורים/תורים = כדור שלג של פסקי זמן.
התעלם מעלויות הרישומים/היציאה - דליפת תקציב ”שקטה”.
מכסות קבועות ללא עונה/פסגות = לא זמינים או פסגות יתר.
16) מימוש מפת דרכים (שבועות 4-8)
1. נד. 1-2: מלאי של משאבים ושירותים; משימת הכיתה (זהב/כסף/ארד) מכסות עיקריות; סל "ד בסיסי.
2. נד. 3-4: אפשר הגדלה אוטומטית על ידי מתווך SLI; הגדרת תורים ותיקי גב לבודד בריכות Tier-0.
3. נד. 5-6: FinOps דיווח ($/יחידה, מכסות, התראות תקציב); בריכות חימום וגולשים צבועים לימי שיא.
4. נד. 7-8: Planner/Guardrails Automation, Derenant Country (ראות מכסה/ערך), Revention Review & Hotspots.
17) השורה התחתונה
הקצאת משאבים אינה הגדרה חד-פעמית, אלא תהליך חי הבנוי מ-SLO, טלמטריה ו-FinOps. כאשר סדר העדיפויות מסודר, המכסות והגבולות - קוד, בידוד וגמישות - ברירת מחדל, וההחלטות מאומתות על ־ ידי מדדים ועלויות, המערכת שורדת בהתמדה את השיא, מגנה על זרימה קריטית ואינה ”שורפת” את התקציב.