תשתיות אל ובריכות GPU

(סעיף: טכנולוגיה ותשתיות)

תקציר

ייצור-AI אינו ”מודל אחד על שרת אחד”, אלא מקבץ של צמתים GPU, בריכות מאיץ משותפות, שירות מאוחד, מידע/תכונה, תצפית וניהול עלויות. עבור iGaming, זה קריטי בזמן אמת: אנטי-הונאה, התאמה אישית, פטפוטים, עוזרי LLM, המלצות משחק/מניות. לבנים בסיסיות: Kubernetes/Slurm לתכנון, בידוד עומסי עבודה, רשת במהירות גבוהה (100/200/400G עם RDMA), אחסון מהיר, MLOps בוגרים ו-SLO בטון מחוזק.

1) מפה ארכיטקטונית

שכבות:

1. אשכול מחשוב: צומתי GPU (מחלקות A/H, AMD/ROCm, Intel Gaudi וכו '), צמתים מעבדים לעיבוד מראש/תכונה.

2. רשת: 100G + Ethernet/IB, RDMA (RoCEv2), טופולוגיות NCCL, QOS.

3. אחסון: אובייקט (S3-משותף), מבוזר POSIX (Ceph/grid), NVMe-scratch מקומי.

4. נתונים/תכונות: פיצ 'סטר (מקוון/לא מקוון), מסדי נתונים וקטורים (אן), מטמון (רדיס), תורים.

5. ML-פלטפורמה: רישום של חפצים ודגמים, צינורות (CI/CD), בקרת גרסאות, מאפיינים כקוד.

6. שכבת שירות: טריטון/KServe/vLLM/text-generation-inference (TGI), A/V/Canary-pression, אוטוריזציה.

7. מינהל וביטחון: PII, סודות, ביקורת חשבונות, מדיניות ייצוא, רישיונות משקל/נתונים.

מטענים טיפוסיים:

ניקוד מקוון (p95 בלום 50-150 ms) - אנטי הונאה, המלצות, דירוג.
שירות LLM (p95 יומן 200-800 מ "מ עבור 128-512 אסימונים) - צ 'אט/סוכנים/פסט.
אצווה אנליטיקה/אימון נוסף - חלונות לילה, מדדים לא מקוונים.
לחימה/הסתגלות - מדי פעם, עם עדיפות נמוכה יותר מאשר באינטרנט.

2) בריכות GPU ותזמון

מודל הבריכה

בריכת הגשה: בקשות קצרות, קצפת גבוהה, קישוטים קפדניים.
Training/Finetuning Pool: Long Jobes, DDP.
Pool "R & D/Experiments': מכסות/גבולות, מניעה מותרת.
מאגר CPU/Pre-/Post-Processing Pool: Normalization, tokenization, rerrank on CPU.

לוחות זמנים

Kubernetes (+ תוסף התקן, NodeGenerates Discovery, taints/collerations, Disclass Class, PodPriority/Preemption).
ניתן לערבב בין K8s באמצעות עובדים נפרדים.
חלק הוגן ומכסות: מכסות שם עבור GPU, CPU, זיכרון; ”בנקים” GPU-שעות; גבולות על שם/פרויקט.

חלוקת GPU

MIG (Multi-Action GPU): חיתוך המאיץ לפרוסות מבודדות (לגלישה/ריבוי-דרגות).
MPS: שיתוף SM עבור משימות קטנות (הפרעות צג).
NVLink/PCIE: תן דעתך לתזמון המודעות לטופולוגיה.

דוגמה K8s אנוטציות (מושג):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) רשת וביצועים בין אתרים

RDMA (RoCEv2) עבור NCCL allrudges; הגדרות ECN/PFC, בידוד של כיתות תנועה.
לוקליזציה: אימון בתוך ”מפעל” אחד (pod/host/optics), הגשה - קרוב יותר למשתמש (edge/area).
בקרת קונינג: פרופילים מכוונים, מסגרות ג 'מבו, ממשקי סיכות.

4) אחסון ונתונים

אחסון משקל/חפץ: אובייקט (versioning, immutability).
Datasets/Feathes: Lakehouse (דלתא/קרחון/האדי) + offline fichester; Online-fichestor (אלפית שנייה SLA).
מסדי נתונים וקטורים (ANN): Faiss/ScaNN/מאיצים, או מנועי וקטור ספקים; רדישות, הפריה חוץ גופית, שכפול.
מטמון NVMe מקומי: חימום מאזניים/שיבוץ להתחלה קרה.

5) דוגמניות משרתות

מסגרות

Triton Inference Server (מולטימודל, חבטות רב פעמיות ודינמיות).
KServe (K8s-native, סימון אוטומטי של HPA/KPA, קנרית).
VLLM/TGI עבור tokenization LLM ופענוח ביצועים גבוהים (Procoding-Introl, KV Cache Putload).
ONNX Runtime/TensorRT-LLM להידור ותאוצה.

אופטימיזציות

קוונטיזציה: INT8/FP8/INT4 (אחוזון/כיול, AWQ/GPTQ) - מקוון בזהירות, מודד איכות.
הידור גרף: TensorRT, TorchIndustor/XLA, TensorRT, TorchIndustor/XLA.
חבטות/מיקרו: דינמי וסטטי; HoutLLM - חבורה רציפה.
מטמון KV: שיתוף בין בקשות, לא מקוון על מעבד/NVMe עם הקשרים ארוכים.
פענוח ספקולטיבי: מודל טיוטה + אימות כדי להאיץ ייצור אסימונים.
גבולות Token/הקשר, עצירה מוקדמת, stopopords, תקציב זמן לכל בקשה.

מדיניות פריסה

A/B, כנרית, צל - השוואה של מדדים באיכות/איכות/עסק.
ירוק כחול - אין הפסקה.
רולבים על SLO/שגיאות.

6) הכשרה/לחימה

DDP/FSDP/ZeRO: זיכרון/גרדיאנטים מבוזרים, חשבון NVLink/טופולוגיה.
נקודות ביקורת: אינקרמנטלי/מלא, תדר נגד I/O.
דיוק מעורב: bf16/fp16 + דירוג אובדן; יציבות פרופיל.
נתונים שרדינג: איטרטור אחיד, שכפול על פני צמתים.
סדר עדיפויות: עבודות ניתנות להפרעה (מראש) לטובת גלישה.
Standalone צינורות: path train # eval _ register # PROD לפי קריטריונים של השער.

7) MLOPS ופלטפורמה

רשמו מודלים: גרסאות, חתימות, תלויות, רישיונות/זכות להשתמש במאזניים.
מודלים של CI/CD: מבחני תאימות, רגרסיות ביצועים, שערי איכות, פריסה בטוחה.
פיכסטור: עקביות מקוונת/מקוונת (feature parity), TTL ו-backfill.
Data/Model Lineage: עקבות ממידע לדיווח/ניסוי.
ספרייה של תפנים/תבניות עבור LLM (versioning).

8) יכולת תצפית ו ־ SLO

מדדים מקוונים:

latency p50/p95/p99, אסימונים/s, תפוסת אצווה, תור המתנה, תפוסה GPU-util/SM, זיכרון, שגיאות.
מפרט LLM: אסימונים I/O, אורך תגובה ממוצע, אחוז הכישלונות לפי גבולות, מטמון KV פגע.
איכות: מבחני רגרסיה אוטומטיים (לא מקוונים), טלמטריה מקוונת (דגלי תוכן, רעילות, דיוק של דגימות זהב).
המרת אישיות, דיוק נגד הונאה, שימור.

התראות: p99/תור גדילה, אסימונים/s טיפה, דלדול מילוי אצווה, תשישות מצערת VRAM/PCIE, צמיחת כשל מגבלת קצב.

9) ביטחון, ציות ופרטיות

PII/מידע פיננסי: מקטע של חישובים ונתונים לפי אזור, הצפנה במנוחה/במעבר, טוקניזציה.
סודות/מפתחות: KMS/Secrets Manager; לא כולל אחסון בתמונות/קוד.
מדיניות פלט LLM: מסנני אבטחה, צוותות אדומות, רישום פלטים/תגובות (בעילום שם).
רישיונות: ציות לרישיונות עבור נתונים/משקולות; ”ללא חלוקה מחדש ”/הגבלות מסחריות.
בידוד דייר: name-RBAC, רשתות, פרוסות MIG, גבולות ומכסות.

10) עלות ופינופס

תכנון קיבולת: העמסת פרופילים (RPS, אסימונים/שניות), ”פלי” של טורנירים וקמפיינים.
Reserve/Spot: בריכות מעורבות (שמורות + spot/preemploot) עם משימות הגדרה מחדש ומחסומים.
אוטוסקלה: HPA/KPA על ידי עומק RPS/תור/GPU-util; ”התחלה חמה” עם קשקשים חמים.
גן חיות למופת: הפחתת אפשרויות; השתמש בהתאמה (LoRA/PEFT) במקום שכפול מלא.
מטמון: הטמנה/תוצאות של בקשות יקרות, שיתוף מטמון KV עבור LLM.
אופטימיזציה של אסימונים: דחיסה של פקודות, אחזור של דור (RAG), דרגה לפני דור.

11) אזור מרובה, הא וד "ר

גלישה פעילה/פעילה קרובה יותר למשתמש, ניתוב גלובלי (latency-based).
שכפול מאזניים ותכונות עם בדיקת שלמות; מחממים את החומרים בזמן השחרור.
תוכנית ד "ר: אובדן אזור AZ/Area, פינוי לבריכת הגיבוי, שליטה בתלות בספרייה המרכזת.
ימי כאוס: GPU node/network domain/assoning pair tests.

12) תבניות הגדרות (מושגים)

טריטון - נגיחה דינמית:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - קנרית:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

VLLM - השקה (רעיונות):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) מפרט LLM: RAG ולולאת חיפוש

אינדקס: איזון, שיבוץ, אן-שרדינג על ידי ”דייר/מקום”.
Rerrank: Lightweight CPU/GPU פרוס מודל כדי לשפר את הדיוק.
מטמון Pelmts/contexts: dedup, canonicalization.
מדיניות ציטוט/אחריות לדומיינים רגישים (CCP/rules).

14) רשימת מימושים

1. לכידת SLOs (p95 latency/tokens/s, זמינות) וטעינת פרופילים.
2. פיצול האשכול לבריכות (הגשה/רכבת/מו "פ), הזן מכסות/סדרי עדיפויות.
3. אפשר RDMA/NCCL ולוח זמנים מודע טופולוגית.
4. הגדרת סעיפים: מאזנים, נתונים, פיצ 'סטר (מקוון/לא מקוון), מסדי נתונים וקטוריים.
5. בחר את ערימת ההגשה (Triton/KServe/vLLM), הוסף חבטות/KV מטמון/קוונטיזציה.
6. הפעל את דגם הרישום, CI/CD, פריסת הקנרית/צל.
7. שימו תצפית: מדדי מערכת + עסקים, איכות, איתור.
8. הזן מדיניות אבטחה/מח "ש, רישיונות, ביקורת.
9. ייעול TCO: מקום שמור +, אוטוסקאלה, מטמון, PEFT במקום שיבוטים מלאים.
10. להכין HA/DR ויש לי יום משחק.

15) תרופות אנטי ־ פטריות

GPU אחד גדול לכולם ללא בריכות וסדרי עדיפויות.
היעדר חבטות דינמיות ומטמון KV עבור LLM # פיצוץ של p99 ועלות.
אימון ושירות באותה בריכה ללא מניעה.
אפס איכות/טלמטריה בטחונית * הידרדרות עדינה וסיכונים.
מונולית מרכזית ללא פיצ 'סטר/מודל לרשום = אין רבייה.
מתעלם מרישיונות קנה מידה/נתונים.

תקציר

תשתיות AI מוצלחות כוללות בריכות GPU חכמות, רשת גבוהה ואחסון נכון, הגשה יעילה (חבטות, מטמון, קוונטיזציה, הידור), MLOPs בוגרים, ו-SLOs קפדניים. בשילוב עם אבטחה/PII, HA/DR-אזורי ופינופס מתחשב, הפלטפורמה מעניקה p99 יציבה, מבוקרת $/בקשה ומימוש מהיר של מודלים חדשים - החל מאנטי הונאה וכלה בהאנשה ועוזרי LLM.

תשתיות אל ובריכות GPU

תקציר

לוחות זמנים

חלוקת GPU

אופטימיזציות

מדיניות פריסה

תקציר

צרו קשר

חיבור מהיר

הווידאו יעודכן בקרוב

אנחנו עמוסים מאוד בפרויקטים כרגע