GH GambleHub

زیرساخت های AI و استخرهای GPU

(بخش: تکنولوژی و زیرساخت)

خلاصه ای کوتاه

هوش مصنوعی تولید «یک مدل در یک سرور» نیست، بلکه مجموعه ای از گره های GPU، استخرهای شتاب دهنده مشترک، سرویس یکپارچه، داده ها/ویژگی ها، قابلیت مشاهده و مدیریت هزینه است. برای iGaming، این در زمان واقعی بسیار مهم است: ضد تقلب، شخصی سازی، chatbots، دستیاران LLM، توصیه های بازی/سهام. آجرهای اصلی: Kubernetes/Slurm برای برنامه ریزی، جداسازی بارهای کاری، شبکه پر سرعت (100/200/400G با RDMA)، ذخیره سازی سریع، MLOps بالغ و SLO «بتن مسلح».

1) نقشه معماری

لایه ها:

1. خوشه محاسباتی: گره های GPU (کلاس های A/H، AMD/ROCm، Intel Gaudi و غیره)، گره های CPU برای پیش پردازش/ویژگی.

2. شبکه: 100G + اترنت/IB، RDMA (RoCEv2)، توپولوژی NCCL، QoS.

3. ذخیره سازی: شیء (S3-shared)، POSIX توزیع شده (Ceph/grid)، NVMe خراش محلی.

4. داده ها/ویژگی ها: fichester (آنلاین/آفلاین)، پایگاه داده های بردار (ANN)، حافظه پنهان (Redis)، صف.

5. ML-پلت فرم: ثبت نام از مصنوعات و مدل ها، خطوط لوله (CI/CD)، کنترل نسخه، ویژگی های به عنوان کد.

6. لایه خدمات: Triton/KServe/vLLM/استنتاج نسل متن (TGI)، A/V/canary-deploy، autoresize.

7. حاکمیت و امنیت: PII، اسرار، حسابرسی، سیاست صادرات، مجوز وزن/Datacet.

بارهای معمولی:
  • امتیاز دهی آنلاین (p95 ≤ 50-150 ms) - ضد تقلب، توصیه ها، رتبه بندی.
  • LLM خدمت (p95 ≤ 200-800 میلی ثانیه برای 128-512 نشانه) - چت/عوامل/پیشنهادات.
  • تجزیه و تحلیل دسته ای/آموزش اضافی - پنجره های شب، معیارهای آفلاین.
  • مبارزه/انطباق - به صورت دوره ای، با اولویت پایین تر از آنلاین.

2) استخرهای GPU و برنامه ریزی

مدل استخر

خدمت استخر: درخواست های کوتاه، بوچ بالا، SLO های سخت.
استخر آموزش/Finetuning: مشاغل طولانی، آموزش توزیع شده (DDP).
استخر «تحقیق و توسعه/آزمایش»: سهمیه/محدودیت، پیشگیری مجاز است.
CPU/Pre-/استخر پس از پردازش: عادی سازی، نشانه گذاری، rerank در CPU.

برنامه ریزان

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (اغلب برای آموزش HPC) - می تواند با K8s از طریق کارگران جداگانه مخلوط شود.
سهم عادلانه و سهمیه: سهمیه فضای نام برای GPU، CPU، حافظه ؛ GPU-hours بانک ها ؛ محدودیت در فضای نام/پروژه.

پارتیشن بندی GPU

MIG (چند نمونه GPU): برش شتاب دهنده به برش جدا شده (برای گشت و گذار/چند اجاره).
MPS: اشتراک SM برای کارهای کوچک (نظارت بر تداخل).
NVLink/PCIe: زمانبندی آگاهانه توپولوژی را در نظر بگیرید.

نمونه ای از حاشیه نویسی K8s (مفهوم):
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) عملکرد شبکه و بین سایت

RDMA (RoCEv2) برای allrudges NCCL ؛ تنظیمات ECN/PFC، جداسازی کلاس های ترافیک.
محلی سازی: آموزش در داخل یک «کارخانه» (غلاف/میزبان/اپتیک)، خدمت - نزدیک به کاربر (لبه/منطقه).
Congest کنترل: پروفیل های تنظیم شده، فریم های جامبو، رابط های پین نینگ.

4) ذخیره سازی و داده ها

ذخیره سازی وزن/مصنوعی: شی (نسخه، غیر قابل تغییر).
مجموعه داده ها/ویژگی ها: Lakehouse (Delta/Iceberg/Hudi) + fichester آفلاین ؛ SLA های آنلاین (میلی ثانیه).
پایگاه داده های بردار (ANN): Faiss/ScaNN/شتاب دهنده ها، یا موتورهای بردار فروشنده ؛ ضعف، HNSW/IVF، تکرار.
حافظه نهان NVMe محلی: گرم کردن مقیاس/تعبیه برای شروع سرد.

5) مدل های خدمت

چارچوب ها

تریتون استنتاج سرور (multimodel، چند زمان، butching پویا).
KServe (K8s-native، خودکار HPA/KPA، قناری).
vLLM/TGI برای نشانه گذاری LLM و رمزگشایی با کارایی بالا (توجه به صفحه، بارگیری حافظه پنهان KV).
ONNX زمان اجرا/TensorRT-LLM - برای تدوین و شتاب.

بهینه سازی

Quantization: INT8/FP8/INT4 (صدک/کالیبراسیون، AWQ/GPTQ) - آنلاین با دقت، اندازه گیری کیفیت.
کامپایل نمودار: TensorRT، TorchInductor/XLA، هسته های ذوب شده.
Butching/microbatching: پویا و استاتیک ؛ LLM для - دسته بندی مداوم.
حافظه پنهان KV: به اشتراک گذاری بین درخواست ها، آفلاین در CPU/NVMe با زمینه های طولانی.
رمزگشایی متمایز: پیش نویس مدل + تایید کننده برای سرعت بخشیدن به تولید توکن.
محدودیت های نشانه/زمینه، توقف زود هنگام، توقف، زمان بودجه در هر درخواست.

سیاست ها را اعمال کنید

A/B، canary، shadow - مقایسه معیارهای تأخیر/کیفیت/کسب و کار.
سبز آبی - بدون خرابی.
بازگشت به SLO/خطاها.

6) آموزش/مبارزه

DDP/FSDP/ZeRO: حافظه توزیع شده/شیب، NVLink/حسابداری توپولوژی.
نقاط بازرسی: افزایشی/کامل، فرکانس در مقابل I/O.
دقت مخلوط: bf16/fp16 + پوسته پوسته شدن از دست دادن ؛ ثبات مشخصات.
مجموعه داده Sharding: تکرار یکنواخت، تکرار در سراسر گره.
اولویت ها: مشاغل قطع (قابل پیش بینی) به نفع گشت و گذار.
خطوط لوله مستقل: داده → قطار → eval → ثبت نام → پیشرفت در PROD با توجه به معیارهای دروازه.

7) MLOps و پلت فرم

ثبت نام از مدل: نسخه, امضا, وابستگی, مجوز/حق استفاده از مقیاس.
مدل های CI/CD: تست سازگاری، رگرسیون عملکرد، دروازه های کیفیت، استقرار امن.
Fichestor: سازگاری آفلاین/آنلاین (برابری ویژگی)، TTL و backfill.
Data/Model Lineage: ردیابی از مجموعه داده ها به گزارش/آزمایش.
دایرکتوری از دهید/قالب برای LLM (نسخه).

8) قابلیت مشاهده و SLO

معیارهای آنلاین:
  • تاخیر p50/p95/p99، نشانه ها/s، اشغال دسته ای، صف انتظار، اشغال GPU-util/SM، حافظه، خطاها.
  • ویژگی های LLM: نشانه های I/O، متوسط طول پاسخ، درصد شکست با محدودیت، حافظه پنهان KV.
  • کیفیت: تست های رگرسیون خودکار (آفلاین)، تله متری آنلاین (پرچم های محتوا، سمیت، دقت صدور در نمونه های طلا).
  • SLO کسب و کار: تبدیل شخصی، دقت ضد تقلب، حفظ.

هشدارها: رشد p99/صف، افت نشانه ها، تخریب دسته ای، VRAM/PCIe خستگی دریچه گاز، رشد نرخ شکست محدود.

9) امنیت، انطباق و حریم خصوصی

PII/داده های مالی: تقسیم بندی محاسبات و داده ها بر اساس منطقه، رمزگذاری در حالت استراحت/در حمل و نقل، نشانه گذاری.
اسرار/کلید: مدیریت KMS/اسرار ؛ حذف ذخیره سازی در تصاویر/کد.
سیاست های خروجی LLM: فیلترهای امنیتی، قرمز تیمی، ورود به سیستم از پیشنهادات/پاسخ (با ناشناس).
مجوز: مطابق با مجوز برای مجموعه داده/وزن ؛ محدودیت های «بدون توزیع مجدد «/تجاری.
جداسازی مستاجر: namespace-RBAC، شبکه ها، برش های MIG، محدودیت ها و سهمیه ها.

10) هزینه و Finops

برنامه ریزی ظرفیت: پروفایل های بار (RPS، نشانه ها/ثانیه)، «دم» مسابقات و کمپین ها.
رزرو/نقطه: استخرهای مخلوط (رزرو شده + نقطه/قابل پیش بینی) با تنظیم مجدد وظایف و ایستگاه های بازرسی.
مقیاس خودکار: HPA/KPA توسط RPS/عمق صف/GPU-util ؛ «شروع گرم» با مقیاس های گرم.
مدل باغ وحش: کاهش گزینه ها ؛ استفاده از سازگاری (LoRA/PEFT) به جای تکثیر کامل.
حافظه پنهان: جاسازی/نتایج درخواست های گران قیمت، به اشتراک گذاری حافظه پنهان KV برای LLM.
بهینه سازی نشانه ها: فشرده سازی اعلان ها، نسل تقویت شده بازیابی (RAG)، قبل از تولید مجدد.

11) چند منطقه، HA و DR

فعال/فعال گشت و گذار نزدیک به کاربر، مسیریابی جهانی (مبتنی بر تاخیر) است.
تکرار مقیاس ها و ویژگی ها با بررسی یکپارچگی ؛ گرم کردن مخازن در طول انتشار.
طرح DR: از دست دادن AZ/منطقه، تخلیه به استخر پشتیبان، کنترل وابستگی به دایرکتوری متمرکز.
روزهای هرج و مرج: تست شکست GPU گره/دامنه شبکه/ذخیره سازی.

12) قالب های پیکربندی (مفاهیم)

تریتون - بوچینگ پویا:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
کروه - قناری:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - راه اندازی (ایده ها):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) ویژگی LLM: RAG و حلقه جستجو

نمایه سازی: chanking، embedding، ANN-sharding توسط 'tenant/locale'.
Rerank: مدل برش CPU/GPU سبک وزن برای بهبود دقت.
حافظه پنهان/زمینه: dedup، canonicalization.
سیاست های استناد/مسئولیت برای دامنه های حساس (CCP/قوانین).

14) چک لیست پیاده سازی

1. SLO ها (تاخیر p95/نشانه/ها، در دسترس بودن) و پروفایل های بار را ضبط کنید.
2. تقسیم خوشه به استخر (خدمت/قطار/تحقیق و توسعه)، وارد سهمیه/اولویت.
3. فعال کردن RDMA/NCCL و برنامه ریزی توپولوژیکی آگاه است.
4. ذخیره سازی ها را تنظیم کنید: مقیاس ها، مجموعه داده ها، فیشستر (آنلاین/آفلاین)، پایگاه داده های بردار.
5. پشته خدمت را انتخاب کنید (Triton/KServe/vLLM)، اضافه کردن butching/KV cache/quantization.
6. ثبت نام مدل، CI/CD، canary/shadow deploy را اجرا کنید.
7. قابلیت مشاهده: سیستم + معیارهای تجاری، کیفیت، ردیابی.
8. سیاست های امنیتی/PII، مجوزها، حسابرسی را وارد کنید.
9. بهینه سازی TCO: رزرو شده + نقطه، مقیاس خودکار، کش، PEFT به جای کلون کامل.
10. HA/DR را آماده کنید و یک روز بازی داشته باشید.

15) ضد گلوله

«یک GPU بزرگ برای همه» بدون استخر و اولویت.
عدم butching پویا و حافظه پنهان KV برای LLM → انفجار P99 و هزینه.
آموزش و خدمت در همان استخر بدون پیشگیری → حوادث SLO.
کیفیت صفر/تله متری ایمنی → تخریب ظریف و خطرات.
یکپارچه متمرکز بدون ثبت نام phichester/model → بدون تکرارپذیری.
نادیده گرفتن مجوزهای مقیاس/داده.

خلاصه

زیرساخت های موفق AI شامل برنامه های هوشمند برنامه ریزی GPU، شبکه بالا و ذخیره سازی صحیح، خدمات کارآمد (butching، cache، quantization، compilation)، MLOps بالغ و SLO های دقیق است. همراه با امنیت/PII، چند منطقه HA/DR و Finops متفکر، پلت فرم می دهد P99 پایدار، کنترل $/درخواست و اجرای سریع مدل های جدید - از ضد تقلب به شخصی و دستیاران LLM.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.