زیرساخت های AI و استخرهای GPU
(بخش: تکنولوژی و زیرساخت)
خلاصه ای کوتاه
هوش مصنوعی تولید «یک مدل در یک سرور» نیست، بلکه مجموعه ای از گره های GPU، استخرهای شتاب دهنده مشترک، سرویس یکپارچه، داده ها/ویژگی ها، قابلیت مشاهده و مدیریت هزینه است. برای iGaming، این در زمان واقعی بسیار مهم است: ضد تقلب، شخصی سازی، chatbots، دستیاران LLM، توصیه های بازی/سهام. آجرهای اصلی: Kubernetes/Slurm برای برنامه ریزی، جداسازی بارهای کاری، شبکه پر سرعت (100/200/400G با RDMA)، ذخیره سازی سریع، MLOps بالغ و SLO «بتن مسلح».
1) نقشه معماری
لایه ها:1. خوشه محاسباتی: گره های GPU (کلاس های A/H، AMD/ROCm، Intel Gaudi و غیره)، گره های CPU برای پیش پردازش/ویژگی.
2. شبکه: 100G + اترنت/IB، RDMA (RoCEv2)، توپولوژی NCCL، QoS.
3. ذخیره سازی: شیء (S3-shared)، POSIX توزیع شده (Ceph/grid)، NVMe خراش محلی.
4. داده ها/ویژگی ها: fichester (آنلاین/آفلاین)، پایگاه داده های بردار (ANN)، حافظه پنهان (Redis)، صف.
5. ML-پلت فرم: ثبت نام از مصنوعات و مدل ها، خطوط لوله (CI/CD)، کنترل نسخه، ویژگی های به عنوان کد.
6. لایه خدمات: Triton/KServe/vLLM/استنتاج نسل متن (TGI)، A/V/canary-deploy، autoresize.
7. حاکمیت و امنیت: PII، اسرار، حسابرسی، سیاست صادرات، مجوز وزن/Datacet.
بارهای معمولی:- امتیاز دهی آنلاین (p95 ≤ 50-150 ms) - ضد تقلب، توصیه ها، رتبه بندی.
- LLM خدمت (p95 ≤ 200-800 میلی ثانیه برای 128-512 نشانه) - چت/عوامل/پیشنهادات.
- تجزیه و تحلیل دسته ای/آموزش اضافی - پنجره های شب، معیارهای آفلاین.
- مبارزه/انطباق - به صورت دوره ای، با اولویت پایین تر از آنلاین.
2) استخرهای GPU و برنامه ریزی
مدل استخر
خدمت استخر: درخواست های کوتاه، بوچ بالا، SLO های سخت.
استخر آموزش/Finetuning: مشاغل طولانی، آموزش توزیع شده (DDP).
استخر «تحقیق و توسعه/آزمایش»: سهمیه/محدودیت، پیشگیری مجاز است.
CPU/Pre-/استخر پس از پردازش: عادی سازی، نشانه گذاری، rerank در CPU.
برنامه ریزان
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (اغلب برای آموزش HPC) - می تواند با K8s از طریق کارگران جداگانه مخلوط شود.
سهم عادلانه و سهمیه: سهمیه فضای نام برای GPU، CPU، حافظه ؛ GPU-hours بانک ها ؛ محدودیت در فضای نام/پروژه.
پارتیشن بندی GPU
MIG (چند نمونه GPU): برش شتاب دهنده به برش جدا شده (برای گشت و گذار/چند اجاره).
MPS: اشتراک SM برای کارهای کوچک (نظارت بر تداخل).
NVLink/PCIe: زمانبندی آگاهانه توپولوژی را در نظر بگیرید.
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) عملکرد شبکه و بین سایت
RDMA (RoCEv2) برای allrudges NCCL ؛ تنظیمات ECN/PFC، جداسازی کلاس های ترافیک.
محلی سازی: آموزش در داخل یک «کارخانه» (غلاف/میزبان/اپتیک)، خدمت - نزدیک به کاربر (لبه/منطقه).
Congest کنترل: پروفیل های تنظیم شده، فریم های جامبو، رابط های پین نینگ.
4) ذخیره سازی و داده ها
ذخیره سازی وزن/مصنوعی: شی (نسخه، غیر قابل تغییر).
مجموعه داده ها/ویژگی ها: Lakehouse (Delta/Iceberg/Hudi) + fichester آفلاین ؛ SLA های آنلاین (میلی ثانیه).
پایگاه داده های بردار (ANN): Faiss/ScaNN/شتاب دهنده ها، یا موتورهای بردار فروشنده ؛ ضعف، HNSW/IVF، تکرار.
حافظه نهان NVMe محلی: گرم کردن مقیاس/تعبیه برای شروع سرد.
5) مدل های خدمت
چارچوب ها
تریتون استنتاج سرور (multimodel، چند زمان، butching پویا).
KServe (K8s-native، خودکار HPA/KPA، قناری).
vLLM/TGI برای نشانه گذاری LLM و رمزگشایی با کارایی بالا (توجه به صفحه، بارگیری حافظه پنهان KV).
ONNX زمان اجرا/TensorRT-LLM - برای تدوین و شتاب.
بهینه سازی
Quantization: INT8/FP8/INT4 (صدک/کالیبراسیون، AWQ/GPTQ) - آنلاین با دقت، اندازه گیری کیفیت.
کامپایل نمودار: TensorRT، TorchInductor/XLA، هسته های ذوب شده.
Butching/microbatching: پویا و استاتیک ؛ LLM для - دسته بندی مداوم.
حافظه پنهان KV: به اشتراک گذاری بین درخواست ها، آفلاین در CPU/NVMe با زمینه های طولانی.
رمزگشایی متمایز: پیش نویس مدل + تایید کننده برای سرعت بخشیدن به تولید توکن.
محدودیت های نشانه/زمینه، توقف زود هنگام، توقف، زمان بودجه در هر درخواست.
سیاست ها را اعمال کنید
A/B، canary، shadow - مقایسه معیارهای تأخیر/کیفیت/کسب و کار.
سبز آبی - بدون خرابی.
بازگشت به SLO/خطاها.
6) آموزش/مبارزه
DDP/FSDP/ZeRO: حافظه توزیع شده/شیب، NVLink/حسابداری توپولوژی.
نقاط بازرسی: افزایشی/کامل، فرکانس در مقابل I/O.
دقت مخلوط: bf16/fp16 + پوسته پوسته شدن از دست دادن ؛ ثبات مشخصات.
مجموعه داده Sharding: تکرار یکنواخت، تکرار در سراسر گره.
اولویت ها: مشاغل قطع (قابل پیش بینی) به نفع گشت و گذار.
خطوط لوله مستقل: داده → قطار → eval → ثبت نام → پیشرفت در PROD با توجه به معیارهای دروازه.
7) MLOps و پلت فرم
ثبت نام از مدل: نسخه, امضا, وابستگی, مجوز/حق استفاده از مقیاس.
مدل های CI/CD: تست سازگاری، رگرسیون عملکرد، دروازه های کیفیت، استقرار امن.
Fichestor: سازگاری آفلاین/آنلاین (برابری ویژگی)، TTL و backfill.
Data/Model Lineage: ردیابی از مجموعه داده ها به گزارش/آزمایش.
دایرکتوری از دهید/قالب برای LLM (نسخه).
8) قابلیت مشاهده و SLO
معیارهای آنلاین:- تاخیر p50/p95/p99، نشانه ها/s، اشغال دسته ای، صف انتظار، اشغال GPU-util/SM، حافظه، خطاها.
- ویژگی های LLM: نشانه های I/O، متوسط طول پاسخ، درصد شکست با محدودیت، حافظه پنهان KV.
- کیفیت: تست های رگرسیون خودکار (آفلاین)، تله متری آنلاین (پرچم های محتوا، سمیت، دقت صدور در نمونه های طلا).
- SLO کسب و کار: تبدیل شخصی، دقت ضد تقلب، حفظ.
هشدارها: رشد p99/صف، افت نشانه ها، تخریب دسته ای، VRAM/PCIe خستگی دریچه گاز، رشد نرخ شکست محدود.
9) امنیت، انطباق و حریم خصوصی
PII/داده های مالی: تقسیم بندی محاسبات و داده ها بر اساس منطقه، رمزگذاری در حالت استراحت/در حمل و نقل، نشانه گذاری.
اسرار/کلید: مدیریت KMS/اسرار ؛ حذف ذخیره سازی در تصاویر/کد.
سیاست های خروجی LLM: فیلترهای امنیتی، قرمز تیمی، ورود به سیستم از پیشنهادات/پاسخ (با ناشناس).
مجوز: مطابق با مجوز برای مجموعه داده/وزن ؛ محدودیت های «بدون توزیع مجدد «/تجاری.
جداسازی مستاجر: namespace-RBAC، شبکه ها، برش های MIG، محدودیت ها و سهمیه ها.
10) هزینه و Finops
برنامه ریزی ظرفیت: پروفایل های بار (RPS، نشانه ها/ثانیه)، «دم» مسابقات و کمپین ها.
رزرو/نقطه: استخرهای مخلوط (رزرو شده + نقطه/قابل پیش بینی) با تنظیم مجدد وظایف و ایستگاه های بازرسی.
مقیاس خودکار: HPA/KPA توسط RPS/عمق صف/GPU-util ؛ «شروع گرم» با مقیاس های گرم.
مدل باغ وحش: کاهش گزینه ها ؛ استفاده از سازگاری (LoRA/PEFT) به جای تکثیر کامل.
حافظه پنهان: جاسازی/نتایج درخواست های گران قیمت، به اشتراک گذاری حافظه پنهان KV برای LLM.
بهینه سازی نشانه ها: فشرده سازی اعلان ها، نسل تقویت شده بازیابی (RAG)، قبل از تولید مجدد.
11) چند منطقه، HA و DR
فعال/فعال گشت و گذار نزدیک به کاربر، مسیریابی جهانی (مبتنی بر تاخیر) است.
تکرار مقیاس ها و ویژگی ها با بررسی یکپارچگی ؛ گرم کردن مخازن در طول انتشار.
طرح DR: از دست دادن AZ/منطقه، تخلیه به استخر پشتیبان، کنترل وابستگی به دایرکتوری متمرکز.
روزهای هرج و مرج: تست شکست GPU گره/دامنه شبکه/ذخیره سازی.
12) قالب های پیکربندی (مفاهیم)
تریتون - بوچینگ پویا:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
کروه - قناری:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - راه اندازی (ایده ها):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) ویژگی LLM: RAG و حلقه جستجو
نمایه سازی: chanking، embedding، ANN-sharding توسط 'tenant/locale'.
Rerank: مدل برش CPU/GPU سبک وزن برای بهبود دقت.
حافظه پنهان/زمینه: dedup، canonicalization.
سیاست های استناد/مسئولیت برای دامنه های حساس (CCP/قوانین).
14) چک لیست پیاده سازی
1. SLO ها (تاخیر p95/نشانه/ها، در دسترس بودن) و پروفایل های بار را ضبط کنید.
2. تقسیم خوشه به استخر (خدمت/قطار/تحقیق و توسعه)، وارد سهمیه/اولویت.
3. فعال کردن RDMA/NCCL و برنامه ریزی توپولوژیکی آگاه است.
4. ذخیره سازی ها را تنظیم کنید: مقیاس ها، مجموعه داده ها، فیشستر (آنلاین/آفلاین)، پایگاه داده های بردار.
5. پشته خدمت را انتخاب کنید (Triton/KServe/vLLM)، اضافه کردن butching/KV cache/quantization.
6. ثبت نام مدل، CI/CD، canary/shadow deploy را اجرا کنید.
7. قابلیت مشاهده: سیستم + معیارهای تجاری، کیفیت، ردیابی.
8. سیاست های امنیتی/PII، مجوزها، حسابرسی را وارد کنید.
9. بهینه سازی TCO: رزرو شده + نقطه، مقیاس خودکار، کش، PEFT به جای کلون کامل.
10. HA/DR را آماده کنید و یک روز بازی داشته باشید.
15) ضد گلوله
«یک GPU بزرگ برای همه» بدون استخر و اولویت.
عدم butching پویا و حافظه پنهان KV برای LLM → انفجار P99 و هزینه.
آموزش و خدمت در همان استخر بدون پیشگیری → حوادث SLO.
کیفیت صفر/تله متری ایمنی → تخریب ظریف و خطرات.
یکپارچه متمرکز بدون ثبت نام phichester/model → بدون تکرارپذیری.
نادیده گرفتن مجوزهای مقیاس/داده.
خلاصه
زیرساخت های موفق AI شامل برنامه های هوشمند برنامه ریزی GPU، شبکه بالا و ذخیره سازی صحیح، خدمات کارآمد (butching، cache، quantization، compilation)، MLOps بالغ و SLO های دقیق است. همراه با امنیت/PII، چند منطقه HA/DR و Finops متفکر، پلت فرم می دهد P99 پایدار، کنترل $/درخواست و اجرای سریع مدل های جدید - از ضد تقلب به شخصی و دستیاران LLM.