GH GambleHub

תכנון קיבולת וצמיחת עומס

תקציר

כוח הוא היכולת לעמוד ביעד SLO לצמיחת עומסים וכישלונות צפויים. בסיס:

1. תחזית הביקוש (מגמת בסיס + אירועי עונה +).

2. טען מודל (מודל פתוח לאינטרנט).

3. סלון ותקציב שגוי.

4. מגבלות (אופק/אנכי/אוטומטי) + מגבלות (rate-limit/backpresser).

5. פיננסים: $1000 RPS, $/ms p95, TCO לפי תרחיש.

מונחים ומקטריםName

דרך: RPS/QPS/CPS - תפוקה בפועל.
Latency p95/p99: המטרה SLOS עבור נתיבי משתמש.
רוויה: מעבד/זיכרון/IO/FD/חיבורים/תורים טעינה.
שיעור שגיאה: 5xx/timeout/429, תקציב שגוי לתקופה.
חדר הראש: נתח של כוח חופשי בשיא התנועה (מומלץ ל-30%).
פרץ: קפיצה לטווח קצר (שניות/דקות), ספייק: עלייה חדה xN.

מודלים בסיסיים ונוסחאות

חוק קטן (למערכות מתור)


L = λ W

L הוא מספר הבקשות הממוצע במערכת, שיעור הכניסה הממוצע (RPS), W הוא הזמן הממוצע במערכת. שימושי להערכת עומק התור.

Load factor (משרה)


ρ = λ / μ

מהירות שירות (RPS ב 100% מעבד). כאשר TERC = 1, LATENCITY מגדילה לא לינארית - שמרו על נקודת העבודה ב- 0. 6–0. 75.

גורם בטיחות/השוליים


Capacity_required = Peak_load (1 + Headroom) Degradation_factor

כאשר Degradation_factor לוקח בחשבון כשל N, ירידה במטמון, אובדן של PoP/region אחד (למשל, 1. 2).

תחזית הביקוש

1. היסטוריה: פרופילי יום/שבוע, עונתיות, מתאם עם אירועים (התאמות/זרמים/תשלום).
2. אירועים: מקדמי תרחיש (יום רגיל × 1, טורניר × 2. 3, סופי × 3. 5).
3. מקורות לתנודות: קמפיינים שיווקיים, שחרור, חריגות בוט.
4. יחידות תחזית: RPS לפי מסלולים (התחברות, לובי, קטלוג, תשלומים), CPS, QPS DB, IOPS disk, egress Gbps.

5. אמון: שמור על שני תרחישים - שמרני ואגרסיבי. ‏

טעינת סימולציה

מודל פתוח (הגעה דמוית פואסון): מתקבל על הדעת עבור API/web ציבורי - שימוש לצורך יישום.
מודל סגור (VU + לחשוב-זמן): מתאים לרצפים פנימיים; לשלב.
תערובות מסלול: שברי משקל לנקודות קצה; כולל לא רק ”חם”, אלא גם ”יקר” (רישום, הפקדה).
אל תשכחו: רטראס, תורים, גבולות שותף (PSP, API צד שלישי).

עיצוב שולי בטיחות

יעד חדר הראש: 30% לשיא (עבור האינטרנט); עבור ליבת התשלום ודרכים קריטיות - 40-50%.
N + 1/N + 2: לעמוד בכשל של 1-2 מקרים/אזורים מבלי להפר את SLO.
אזור מרובה: כל אזור מושך 60% מהשיא הכולל (כדי לשרוד את אובדן השכן).
מצב משפיל: בטל פונקציות משניות, הפחת את המטען, אפשר תגובות מטמון/דקירה.

Sising by Layer

רשת/Edge

CPS/RPS בחזית, לחיצת יד TLS p95, חידוש MA 70%, יציאה Gbps.
Anycast/Geo-routing, CDN/WAF limits (מסכים מראש).
מרווח: קישור/aplink/שיא × 1. 3, גיבוי SYN עם מרווח UDP/443 עבור H3.

Balancers/Proxies

RPS לדוגמא, חיבורים פתוחים, תורים, מעבד/IRQ.
לשמור על איגום וחיבור, להפחית את החיבורים לאחוריים.
מניה: פקודה 0. 7, מגביל CPS/RPS לכל מסלול.

יישומים

ביצועי מטרה ליבה (RPS/Core) במישור.
בריכות (אשכול/DB/HTTP) - לא נתקלות בגבולות.
מניות: autoscale עד מעבד 60-70% ו latency-הדק (p95).

Caches

יחס פגע, נפח חם, פינוי, העתק.
שמורה: זיכרון 1. 2 × הוט סט, רשת אוזניות 30%.

מסדי נתונים

QPS/TPM, p95 בקשות, מנעולים, מטמון חוצץ, lag WAL/שכפול.
כונני IOPS ו Latency הם מפתח p95.
מרווח: נקודת הפעלה מעבד 50-65%, העתק לג <היעד; תוכנית צ 'רינג והעתקי קריאה.

דיסקים/אחסון

IOPS (4k/64k), תפוקה, עלות fsync.
מניה: IOPS with peak x1. 5, latency p95 בחלון היעד; בריכות נפרדות עבור רישום/נתונים.

GPU/ML (אם יש הסקה מקוונת)

דגימות/s, Latency, חדר הראש VRAM, חבטות.
פרמטרים מתחת ל ”מסור” עומס, GPU בריכת חום.

מיקוד אוטומטי

HPA/KEDA: CPU metrics + מותאם אישית (p95 latency, RPS, תור).
בריכות חמות: מקרים שחוממו מראש לפני האירועים.
קפיצת מדרגה: צעדים עם התקררות כדי לא ”מסור”.
זמן תגובה: כוון ללוח T_scale 1-2 דקות עבור השכבה הקדמית; עבור DB - מראש.

מגבלות ותיקי גב

הגבלת קצב IP/ASN/התקן/מסלול; מכסות שותפים.
תורים עם TTL, סירוב ”מנומס” (429/דרך גריי-וול) לפני פסקי זמן.
אידמפוטנטיות: מפתחות לתשלומים; מגשים עם תקציב + ג 'יטר.
מבקש קריסה/SWR: אל תתעורר מקור במהלך התזה.

דוגמה לחישוב מהיר

נתון: 35k RPS API תחזית שיא, p95 to 250 ms, זמן שירות ממוצע 8 ms לפקודה ב-60% PPU.
שלב 1 (ללא מלאי): 35 מקרים.
שלב 2 (חדר הראש 30%): 35 × 1. 3 = 46.
שלב 3 (כישלון של AZ אחד, + 20%): 46 × 1. 2 ≈ 55.
שלב 4 (עיגול + רזרבה חמה 10%): 61 מקרים.
בדוק: מנה 35k/( 61k) @ info 0. 57 - באזור הירוק.

מודל פיננסי (FinOps)

$1000 RPS על ידי שכבה (קצה, פרוקסי, אפליקציה, DB).
$/ms p95 (עלות הפחתת זנב).
תרחישי TCO: לפי דרישה נגד שמורות נגד ספוט (עם סיכון להפרעות).
תוכנית קיבולת: גבולות חשבון/אשכול רבעוניים, מכסות ענן, גבולות PSP/CDN.

מוכן לכישלונות ו DR

Multi-AZ/region: בכל זרוע 60% מהעומס.
תוכנית כשל: לסגת בכל מקרה, החלפת GSLB, TTL 60-120 s.
תלות קריטית: גבולות PSP/בנק, ספק משני.
תרגילים תקופתיים: יום משחק עם PoP/BG/מטמון כבוי.

תצפית ואותות רוויה מוקדמים

גידול של p95/p99 ותורים עם קלט יציב.
ירידה במטמון יחס פגע, גידול יציאת המקור.
מעבר מחדש/הגדלה של ECN CE, נפילה של חידוש TLS.
צמיחה 429/פסק זמן וקצב מחדש.
למאגרי נתונים - צמיחת קונפליקט, זמן ביקורת, WAL fsync.

אימונים מבצעיים

סקירת תפוסה חודשית: עובדה נגד תוכנית.
שינוי חלונות לאירועים: להקפיא גרעין ומגבלות.
Prewarm (CDN/DNS/TLS/Pols) 10-30 דקות לפני השיא.
הגבלה על Versioning: תקן את הגדרות קצב הגבלת/בריכות בגיט.

iGaming/fintech ספציפי

טורנירים/התאמות: פרופילי ספייק + מישור, מסלולים אפורים עבור בוטים, מגבלות רישום/הפקדה נפרדות.
תשלומים/PSP: מכסות ספקית/שיטה, נתיבי נפילה, בריכות יציאה-IP, SLA Time-to-Wallet.
ספקי תוכן: הפצה באולפן, מטמונים חמים, בריכות שברים.
אנטיפראוד/AML: הגבלה על כללים/ניקוד, הידרדרות לחוקי האור בשיא.

רשימת יישומים

[ תחזית פסגת ] (בסיס/עונה/אירועים), שני תרחישים.
[ ] תקציב SLO/לא נכון וסלון היעד ב-30%.
[ ] Sizing by layer (edge/proxy/app/cache/DB/IO/network).
[ ] מגבלת קצב, תור, אידמפוטנטיות, תקצוב חוזר.
[ ] HPA/KEDA + בריכות חמות; תוכנית קידום לפני האירוע.
[ ] Multi-AZ/Region, ספרי השמעה, TTL ו-GSLB.
[ ] מכסות ענן/PSP/CDN עקביות ומתועדות.
[ ] תצפית: לוחות מחוונים קיבולת, אותות רוויה מוקדמים.
[ ] תרגילי ד "ר וסקירת יכולת קבועה.

שגיאות נפוצות

תוכנית ל-RPS ממוצע ללא חייטים/קוצים.
ρ≈0. 9 ”על הנייר” - איחוי מתפוצץ ברעש הקל ביותר.
התעלמות מגבולות השירות החיצוני (אשכול PSP/CDN/DB).
אין מצב משפיל ותרמיל גב נכשלים.
קנה מידה אוטומטי ללא חימום - מנהל ”אחרי” השיא.
חדר ראש אחד לכל השכבות, צוואר בקבוק נודד.

ספרי משחקים מיני

לפני אירוע שיא (T-30 min)

1. הגדלת minReculas/tart HPA, לאפשר בריכה חמה.
2. לחמם את CDN/DNS/TLS/חיבורים, לחמם מטמונים.
3. להעלות את גבולות בריכת PSP ומכסות כמוסכם.
4. הפעל מסלולים אפורים/מסנני בוט, נקודות קצה כבדות צרות.

אובדן חלקי של אזור

1. GSLB # אזור שכן, TTL 60-120 s.
2. אפשר מצב ביזוי (cache/pressed checkout).
3. הפץ מחדש את גבולות ה ־ PSP/egress-IP.
4. תקשורת מצב, בקרת p95/שגיאה.

נחשול בנסיגה

1. הפחת את התקציב מחדש, אפשר גיבוי + ג 'יטר.
2. אפשר קריסת בקשה/SWR על GET.
3. להדק באופן זמני את הגבלת קצב עבור ASNs ”רועש”.

תוצאות

תכנון קיבולת הוא תחזית ביקוש + מודל הנדסי + שולי בטיחות + מנופים תפעוליים. הגדל את SLO וחדר הראש, שקול מגבלות חיצוניות, הגדלה אוטומטית, מדידה של ”עלות לאלפית שנייה” וביצוע ביקורות קיבולת קבועות. אז ההעלאה בעומס לא תהפוך לסיכון, אלא לשיטה עסקית הניתנת לניהול.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.