زیرساخت های AI و استخرهای GPU

(بخش: تکنولوژی و زیرساخت)

خلاصه ای کوتاه

هوش مصنوعی تولید «یک مدل در یک سرور» نیست، بلکه مجموعه ای از گره های GPU، استخرهای شتاب دهنده مشترک، سرویس یکپارچه، داده ها/ویژگی ها، قابلیت مشاهده و مدیریت هزینه است. برای iGaming، این در زمان واقعی بسیار مهم است: ضد تقلب، شخصی سازی، chatbots، دستیاران LLM، توصیه های بازی/سهام. آجرهای اصلی: Kubernetes/Slurm برای برنامه ریزی، جداسازی بارهای کاری، شبکه پر سرعت (100/200/400G با RDMA)، ذخیره سازی سریع، MLOps بالغ و SLO «بتن مسلح».

1) نقشه معماری

لایه ها:

1. خوشه محاسباتی: گره های GPU (کلاس های A/H، AMD/ROCm، Intel Gaudi و غیره)، گره های CPU برای پیش پردازش/ویژگی.

2. شبکه: 100G + اترنت/IB، RDMA (RoCEv2)، توپولوژی NCCL، QoS.

3. ذخیره سازی: شیء (S3-shared)، POSIX توزیع شده (Ceph/grid)، NVMe خراش محلی.

4. داده ها/ویژگی ها: fichester (آنلاین/آفلاین)، پایگاه داده های بردار (ANN)، حافظه پنهان (Redis)، صف.

5. ML-پلت فرم: ثبت نام از مصنوعات و مدل ها، خطوط لوله (CI/CD)، کنترل نسخه، ویژگی های به عنوان کد.

6. لایه خدمات: Triton/KServe/vLLM/استنتاج نسل متن (TGI)، A/V/canary-deploy، autoresize.

7. حاکمیت و امنیت: PII، اسرار، حسابرسی، سیاست صادرات، مجوز وزن/Datacet.

بارهای معمولی:

امتیاز دهی آنلاین (p95 ≤ 50-150 ms) - ضد تقلب، توصیه ها، رتبه بندی.
LLM خدمت (p95 ≤ 200-800 میلی ثانیه برای 128-512 نشانه) - چت/عوامل/پیشنهادات.
تجزیه و تحلیل دسته ای/آموزش اضافی - پنجره های شب، معیارهای آفلاین.
مبارزه/انطباق - به صورت دوره ای، با اولویت پایین تر از آنلاین.

2) استخرهای GPU و برنامه ریزی

مدل استخر

خدمت استخر: درخواست های کوتاه، بوچ بالا، SLO های سخت.
استخر آموزش/Finetuning: مشاغل طولانی، آموزش توزیع شده (DDP).
استخر «تحقیق و توسعه/آزمایش»: سهمیه/محدودیت، پیشگیری مجاز است.
CPU/Pre-/استخر پس از پردازش: عادی سازی، نشانه گذاری، rerank در CPU.

برنامه ریزان

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (اغلب برای آموزش HPC) - می تواند با K8s از طریق کارگران جداگانه مخلوط شود.
سهم عادلانه و سهمیه: سهمیه فضای نام برای GPU، CPU، حافظه ؛ GPU-hours بانک ها ؛ محدودیت در فضای نام/پروژه.

پارتیشن بندی GPU

MIG (چند نمونه GPU): برش شتاب دهنده به برش جدا شده (برای گشت و گذار/چند اجاره).
MPS: اشتراک SM برای کارهای کوچک (نظارت بر تداخل).
NVLink/PCIe: زمانبندی آگاهانه توپولوژی را در نظر بگیرید.

نمونه ای از حاشیه نویسی K8s (مفهوم):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) عملکرد شبکه و بین سایت

RDMA (RoCEv2) برای allrudges NCCL ؛ تنظیمات ECN/PFC، جداسازی کلاس های ترافیک.
محلی سازی: آموزش در داخل یک «کارخانه» (غلاف/میزبان/اپتیک)، خدمت - نزدیک به کاربر (لبه/منطقه).
Congest کنترل: پروفیل های تنظیم شده، فریم های جامبو، رابط های پین نینگ.

4) ذخیره سازی و داده ها

ذخیره سازی وزن/مصنوعی: شی (نسخه، غیر قابل تغییر).
مجموعه داده ها/ویژگی ها: Lakehouse (Delta/Iceberg/Hudi) + fichester آفلاین ؛ SLA های آنلاین (میلی ثانیه).
پایگاه داده های بردار (ANN): Faiss/ScaNN/شتاب دهنده ها، یا موتورهای بردار فروشنده ؛ ضعف، HNSW/IVF، تکرار.
حافظه نهان NVMe محلی: گرم کردن مقیاس/تعبیه برای شروع سرد.

5) مدل های خدمت

چارچوب ها

تریتون استنتاج سرور (multimodel، چند زمان، butching پویا).
KServe (K8s-native، خودکار HPA/KPA، قناری).
vLLM/TGI برای نشانه گذاری LLM و رمزگشایی با کارایی بالا (توجه به صفحه، بارگیری حافظه پنهان KV).
ONNX زمان اجرا/TensorRT-LLM - برای تدوین و شتاب.

بهینه سازی

Quantization: INT8/FP8/INT4 (صدک/کالیبراسیون، AWQ/GPTQ) - آنلاین با دقت، اندازه گیری کیفیت.
کامپایل نمودار: TensorRT، TorchInductor/XLA، هسته های ذوب شده.
Butching/microbatching: پویا و استاتیک ؛ LLM для - دسته بندی مداوم.
حافظه پنهان KV: به اشتراک گذاری بین درخواست ها، آفلاین در CPU/NVMe با زمینه های طولانی.
رمزگشایی متمایز: پیش نویس مدل + تایید کننده برای سرعت بخشیدن به تولید توکن.
محدودیت های نشانه/زمینه، توقف زود هنگام، توقف، زمان بودجه در هر درخواست.

سیاست ها را اعمال کنید

A/B، canary، shadow - مقایسه معیارهای تأخیر/کیفیت/کسب و کار.
سبز آبی - بدون خرابی.
بازگشت به SLO/خطاها.

6) آموزش/مبارزه

DDP/FSDP/ZeRO: حافظه توزیع شده/شیب، NVLink/حسابداری توپولوژی.
نقاط بازرسی: افزایشی/کامل، فرکانس در مقابل I/O.
دقت مخلوط: bf16/fp16 + پوسته پوسته شدن از دست دادن ؛ ثبات مشخصات.
مجموعه داده Sharding: تکرار یکنواخت، تکرار در سراسر گره.
اولویت ها: مشاغل قطع (قابل پیش بینی) به نفع گشت و گذار.
خطوط لوله مستقل: داده → قطار → eval → ثبت نام → پیشرفت در PROD با توجه به معیارهای دروازه.

7) MLOps و پلت فرم

ثبت نام از مدل: نسخه, امضا, وابستگی, مجوز/حق استفاده از مقیاس.
مدل های CI/CD: تست سازگاری، رگرسیون عملکرد، دروازه های کیفیت، استقرار امن.
Fichestor: سازگاری آفلاین/آنلاین (برابری ویژگی)، TTL و backfill.
Data/Model Lineage: ردیابی از مجموعه داده ها به گزارش/آزمایش.
دایرکتوری از دهید/قالب برای LLM (نسخه).

8) قابلیت مشاهده و SLO

معیارهای آنلاین:

تاخیر p50/p95/p99، نشانه ها/s، اشغال دسته ای، صف انتظار، اشغال GPU-util/SM، حافظه، خطاها.
ویژگی های LLM: نشانه های I/O، متوسط طول پاسخ، درصد شکست با محدودیت، حافظه پنهان KV.
کیفیت: تست های رگرسیون خودکار (آفلاین)، تله متری آنلاین (پرچم های محتوا، سمیت، دقت صدور در نمونه های طلا).
SLO کسب و کار: تبدیل شخصی، دقت ضد تقلب، حفظ.

هشدارها: رشد p99/صف، افت نشانه ها، تخریب دسته ای، VRAM/PCIe خستگی دریچه گاز، رشد نرخ شکست محدود.

9) امنیت، انطباق و حریم خصوصی

PII/داده های مالی: تقسیم بندی محاسبات و داده ها بر اساس منطقه، رمزگذاری در حالت استراحت/در حمل و نقل، نشانه گذاری.
اسرار/کلید: مدیریت KMS/اسرار ؛ حذف ذخیره سازی در تصاویر/کد.
سیاست های خروجی LLM: فیلترهای امنیتی، قرمز تیمی، ورود به سیستم از پیشنهادات/پاسخ (با ناشناس).
مجوز: مطابق با مجوز برای مجموعه داده/وزن ؛ محدودیت های «بدون توزیع مجدد «/تجاری.
جداسازی مستاجر: namespace-RBAC، شبکه ها، برش های MIG، محدودیت ها و سهمیه ها.

10) هزینه و Finops

برنامه ریزی ظرفیت: پروفایل های بار (RPS، نشانه ها/ثانیه)، «دم» مسابقات و کمپین ها.
رزرو/نقطه: استخرهای مخلوط (رزرو شده + نقطه/قابل پیش بینی) با تنظیم مجدد وظایف و ایستگاه های بازرسی.
مقیاس خودکار: HPA/KPA توسط RPS/عمق صف/GPU-util ؛ «شروع گرم» با مقیاس های گرم.
مدل باغ وحش: کاهش گزینه ها ؛ استفاده از سازگاری (LoRA/PEFT) به جای تکثیر کامل.
حافظه پنهان: جاسازی/نتایج درخواست های گران قیمت، به اشتراک گذاری حافظه پنهان KV برای LLM.
بهینه سازی نشانه ها: فشرده سازی اعلان ها، نسل تقویت شده بازیابی (RAG)، قبل از تولید مجدد.

11) چند منطقه، HA و DR

فعال/فعال گشت و گذار نزدیک به کاربر، مسیریابی جهانی (مبتنی بر تاخیر) است.
تکرار مقیاس ها و ویژگی ها با بررسی یکپارچگی ؛ گرم کردن مخازن در طول انتشار.
طرح DR: از دست دادن AZ/منطقه، تخلیه به استخر پشتیبان، کنترل وابستگی به دایرکتوری متمرکز.
روزهای هرج و مرج: تست شکست GPU گره/دامنه شبکه/ذخیره سازی.

12) قالب های پیکربندی (مفاهیم)

تریتون - بوچینگ پویا:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

کروه - قناری:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - راه اندازی (ایده ها):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) ویژگی LLM: RAG و حلقه جستجو

نمایه سازی: chanking، embedding، ANN-sharding توسط 'tenant/locale'.
Rerank: مدل برش CPU/GPU سبک وزن برای بهبود دقت.
حافظه پنهان/زمینه: dedup، canonicalization.
سیاست های استناد/مسئولیت برای دامنه های حساس (CCP/قوانین).

14) چک لیست پیاده سازی

1. SLO ها (تاخیر p95/نشانه/ها، در دسترس بودن) و پروفایل های بار را ضبط کنید.
2. تقسیم خوشه به استخر (خدمت/قطار/تحقیق و توسعه)، وارد سهمیه/اولویت.
3. فعال کردن RDMA/NCCL و برنامه ریزی توپولوژیکی آگاه است.
4. ذخیره سازی ها را تنظیم کنید: مقیاس ها، مجموعه داده ها، فیشستر (آنلاین/آفلاین)، پایگاه داده های بردار.
5. پشته خدمت را انتخاب کنید (Triton/KServe/vLLM)، اضافه کردن butching/KV cache/quantization.
6. ثبت نام مدل، CI/CD، canary/shadow deploy را اجرا کنید.
7. قابلیت مشاهده: سیستم + معیارهای تجاری، کیفیت، ردیابی.
8. سیاست های امنیتی/PII، مجوزها، حسابرسی را وارد کنید.
9. بهینه سازی TCO: رزرو شده + نقطه، مقیاس خودکار، کش، PEFT به جای کلون کامل.
10. HA/DR را آماده کنید و یک روز بازی داشته باشید.

15) ضد گلوله

«یک GPU بزرگ برای همه» بدون استخر و اولویت.
عدم butching پویا و حافظه پنهان KV برای LLM → انفجار P99 و هزینه.
آموزش و خدمت در همان استخر بدون پیشگیری → حوادث SLO.
کیفیت صفر/تله متری ایمنی → تخریب ظریف و خطرات.
یکپارچه متمرکز بدون ثبت نام phichester/model → بدون تکرارپذیری.
نادیده گرفتن مجوزهای مقیاس/داده.

خلاصه

زیرساخت های موفق AI شامل برنامه های هوشمند برنامه ریزی GPU، شبکه بالا و ذخیره سازی صحیح، خدمات کارآمد (butching، cache، quantization، compilation)، MLOps بالغ و SLO های دقیق است. همراه با امنیت/PII، چند منطقه HA/DR و Finops متفکر، پلت فرم می دهد P99 پایدار، کنترل $/درخواست و اجرای سریع مدل های جدید - از ضد تقلب به شخصی و دستیاران LLM.

زیرساخت های AI و استخرهای GPU

خلاصه ای کوتاه

برنامه ریزان

پارتیشن بندی GPU

بهینه سازی

سیاست ها را اعمال کنید

خلاصه

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم