GH GambleHub

AI-infratuzilma va GPU-pullar

(Bo’lim: Texnologiyalar va infratuzilma)

Qisqacha xulosa

Prodakshn-AI - bu «bitta serverda bitta model» emas, balki GPU uzellari, tezlatkichlarning umumiy pullari, unifikatsiyalangan serving, ma’lumotlar/fichlar, kuzatuv va qiymatni boshqarish klasteridir. iGaming uchun bu real vaqtda juda muhim: antifrod, shaxsiylashtirish, chatbotlar, LLM yordamchilari, o’yin/aksiyalar tavsiyalari. Asosiy g’ishtlar: rejalashtirish uchun Kubernetes/Slurm, ish yuklarini izolyatsiya qilish, yuqori tezlikdagi tarmoq (RDMA bilan 100/200/400G), tezkor saqlash joylari, yetuk MLOps va «temir-beton» SLO.

1) Arxitektura xaritasi

Qatlamlar:

1. Hisoblash klasteri: GPU-kodlar (A/H-klasslar, AMD/ROCm, Intel Gaudi va shu kabilar), preprosessing/chichlar uchun CPU-kodlar.

2. Tarmoq: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiyalar, QoS.

3. Saqlash joyi: obyekt (S3- .) , tarqatilgan POSIX (Ceph/grid), lokal NVMe-scratch.

4. Ma’lumotlar/fitnalar: fichestor (online/offline), vektor DB (ANN), kesh (Redis), navbatlar.

5. ML-platforma: artefaktlar va modellar reyestri, payplaynlar (CI/CD), versiyalarni nazorat qilish, fichi kod sifatida.

6. Xizmat qatlami: Triton/KServe/vLLM/text-generation-inference (TGI), A/V/kanari-deploy, avtoresayz.

7. Governans va xavfsizlik: PII, sirlar, audit, eksport siyosati, tarozilar/sanalar litsenziyasi.

Namunaviy yuklamalar:
  • Onlayn-skoring (p95 ≤ 50-150 ms) - antifrod, tavsiyalar, reyting.
  • LLM-serving (128-512 tokenga p95 ≤ 200-800 ms) - chat/agentlar/maslahatlar.
  • To’plamli tahlil/qo’shimcha o’qitish - tungi derazalar, oflayn metriklar.
  • Fayntyuning/moslashish - vaqti-vaqti bilan, onlayn ustuvorlikdan past.

2) GPU-pullar va rejalashtirish

Pullar modeli

«Serving» hovuzi: qisqa so’rovlar, yuqori batching, qattiq SLO.
«Trening/Fayntyuning» puli: uzoq joblar, taqsimlangan trening (DDP).
«R & D/Eksperimentlar» puli: kvotalar/limitlar, preemption ruxsat etilgan.
«CPU/Pre-/Post-processing» puli: normallashtirish, tokenlashtirish, CPUda rerank.

Rejalashtiruvchilar

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (ko’pincha HPC-trening uchun) - K8s bilan alohida mashg’ulotlar orqali aralashtirilishi mumkin.
Fair-sher va kvotalar: GPU, CPU, xotira bo’yicha namespace-kvotalar; «banklar» GPU-soat; neyspeys/loyiha bo’yicha limitlar.

GPUni partiyalash

MIG (Multi-Instance GPU): tezlatgichni izolyatsiyalangan slayslarga kesish (serving/multi-tenantlik uchun).
MPS: kichik vazifalar uchun sharing SM (interferentsiyani kuzatish).
NVLink/PCIe: podalar pinningida topologiyani hisobga olish.

K8s-annotatsiyalar misoli (konsept):
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Tarmoq va tarmoqlararo unumdorlik

NCCL-all-redyuslar uchun RDMA (RoCEv2); ECN/PFC moslamalari, trafikni izolyatsiya qilish.
Mahalliylashtirish: bitta «fabrika» ichidagi trening (pod/host/optika), serving - foydalanuvchiga yaqin (edge/mintaqa).
Congest-control: tuned profillar, jumbo frames, pin-ning interfeyslari.

4) Ombor va ma’lumotlar

Tarozilar/artefaktlar ombori: obyekt (versiyalash, immutability).
Datasetы/fichi: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online-fichestor (millisekundlik SLA).
Vektor BD (ANN): Faiss/ScaNN/akseleratorlar yoki vendor vektor dvigatellari; shardalash, HNSW/IVF, replikatsiyalar.
Lokal NVMe-kesh: sovuq boshlash uchun tarozi/embeddinglarni isitish.

5) Modellarning servingi

Frameworks

Triton Inference Server (multimodel, multiruntaym, dinamik batching).
KServe (K8s-nativ, autoscaling HPA/KPA, kanari).
vLLM/TGI uchun LLM-tokenizatsiya va yuqori unumli dekoding (paged-attention, KV-kesh offloud).
ONNX Runtime/TensorRT-LLM - kompilyatsiya qilish va tezlashtirish uchun.

Optimallashtirish

Kvantlash: INT8/FP8/INT4 (pertsentili/kalibrlash, AWQ/GPTQ) - onlayn tarzda ehtiyot bo’lish, sifatni o’lchash.
Grafaning kompilyatsiyasi: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamik va statik; для LLM — continuous batching.
KV-kesh: soʻrovlar oʻrtasida sharing, uzoq kontekstlarda CPU/NVMe uchun offloud.
Spekulyativ dekoding: token-talqinni tezlashtirish uchun draft-model + verifikator.
Token/kontekst limitlari, erta to’xtash, to’xtash so’zlari, so’rov uchun time-budget.

Deploy siyosati

A/B, kanari, shadow - latentlik/sifat/biznes metrikasini taqqoslash.
Blu-grin - pastga tushmasdan.
SLO/xatolar bo’yicha rollbek.

6) Trening/fayntyuning

DDP/FSDP/ZeRO: taqsimlangan xotira/gradientlar, NVLink/topologiyalar hisobi.
Chek pointlari: inkremental/to’liq, chastotasi vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; barqarorlikni profillash.
Dataset-sharding: bir tekis iterator, uzellar bo’yicha replikatsiya.
Ustuvorliklar: serving foydasiga uzilayotgan joblar (preemptible).
Avtonom payplaynlar: data → train → eval → registr → PRODda gate-mezonlar bo’yicha oldinga siljish.

7) MLOps va platforma

Modellar reyestri: versiyalar, imzolar, qaramliklar, litsenziyalar/tarozidan foydalanish huquqi.
CI/CD modellari: muvofiqlik testlari, ijro regressiyalari, quality-geytlar, xavfsiz deploy.
Fichestor: offline/online konsistentlik (feature parity), TTL va backfill.
Data/Model Lineage: hisobotdan hisobotgacha/eksperimentgacha.
LLM uchun prompt/shablon katalogi (version).

8) Kuzatuv va SLO

Onlayn metrika:
  • Latentlik p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, xotira, xatolar.
  • LLM-spetsifikasi: kirish/chiqish tokenlari, javobning o’rtacha uzunligi, limit bo’yicha nosozliklar ulushi, kash-hit KV.
  • Sifati: avtomatik regression testlar (offline), onlayn-telemetriya (kontent bayroqlari, toksikligi, oltin tanlamalarda berishning aniqligi).
  • Biznes-SLO: shaxsiylashtirish konvertatsiyasi, antifrod aniqligi, ushlab turish.

Alertlar: p99/navbat o’sishi, tokens/s tushishi, batch-fill degradatsiyasi, VRAM/PCIe-throttle tugashi, nosozliklarning rate-limit o’sishi.

9) Xavfsizlik, komplayens va maxfiylik

PII/moliyaviy ma’lumotlar: hududlar bo’yicha hisoblash va ma’lumotlarni segmentlash, tinch/tranzitda shifrlash, tokenlashtirish.
Sirlar/kalitlar: KMS/Secrets Manager; tasvirlarda/kodda saqlanishini istisno etish.
LLM chiqish siyosati: xavfsizlik filtrlari, red-teaming, prompt/javoblarni jurnallash (anonimlashtirish bilan).
Litsenziyalar: datasetga/vaznga litsenziyalarga muvofiqligi; «no-redistribute «/tijorat cheklovlari.
Tenantlarni izolyatsiya qilish: namespace-RBAC, tarmoqlar, MIG-slayslar, limitlar va kvotalar.

10) Qiymati va finops

Kapasiti-rejalashtirish: yuklama profillari (RPS, tokenlar/sek), turnirlar va kampaniyalarning «dumlari».
Rezerv/Spot: aralash pullar (reserved + spot/preemptible) qayta qo’yilgan vazifalar va chekpindlar bilan.
Avtoskeyl: RPS/queue depth/GPU-util bo’yicha HPA/KPA; isitilgan tarozilar bilan «iliq start».
Model hayvonot bog’i: variantlar sonini qisqartiring; to’liq takrorlash o’rniga moslashuvdan (LoRA/PEFT) foydalaning.
Kesh: embeddingi/qimmatbaho so’rovlar natijalari, LLM uchun KV kesh sharing.
Tokenlarni optimallashtirish: sanoatni siqish, retrieval-augmented generation (RAG), rerank.

11) Multiregion, HA va DR

Active/Active serving foydalanuvchiga yaqinroq, global routing (latency-based).
Tarozi va chichlarni yaxlitligini tekshirgan holda replikatsiya qilish; relizlar paytida keshlarni isitish.
DR-reja: AZ/mintaqani yo’qotish, zaxira hovuziga evakuatsiya qilish, markazlashtirilgan katalogga qaramlikni nazorat qilish.
Chaos-days: GPU-nod/tarmoq domenlari/omborning nosozlik testlari.

12) Konfiguratsiya shablonlari (konseptlar)

Triton - dinamik batching:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - kanari:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - ishga tushirish (g’oyalar):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-spetsifikasi: RAG va qidiruv konturi

Indeksatsiya: chanking, embeddingi,’tenant/locale’bo’yicha ANN-shardlash.
Rerank: aniqlikni oshirish uchun CPU/GPU-slaysda engil model.
Prompt/kontekstlar kesh: dedup, canonicalization.
Sezgir domenlar uchun iqtibos/javobgarlik siyosati (KTS/qoidalar).

14) Joriy etish chek-varaqasi

1. SLO (p95 latency/tokens/s, foydalanish imkoniyati) va yuklash profillarini oʻrnating.
2. Klasterni pulga ajrating (serving/train/R & D), kvotalarni/ustuvorliklarni kiriting.
3. RDMA/NCCL va topologik ongli rejalashtirishni kiriting.
4. Omborlarni moslashtiring: tarozilar, datasetlar, fichestor (online/offline), vektor DB.
5. Serving stekini tanlang (Triton/KServe/vLLM), batching/KV-kesh/kvantlash qoʻshing.
6. Modellar, CI/CD, kanari/shadou-deploy roʻyxatini ishga tushiring.
7. Kuzatish darajasini belgilang: tizimli + biznes metrika, sifat, trassing.
8. Xavfsizlik/PII, litsenziyalar, audit siyosatini kiriting.
9. To’liq klonlar o’rniga TCO: reserved + spot, avtoskayl, kesh, PEFT ni optimallashtiring.
10. HA/DR ni tayyorlang va game-day o’tkazing.

15) Antipatternlar

«Hamma uchun bitta katta GPU» pulsiz va ustuvorliksiz.
LLM → p99 portlashi va qiymati uchun dinamik batching va KV-kesh yo’qligi.
Preemption → SLO-hodisalarsiz bitta hovuzda trening va serving.
Sifat/xavfsizlikning nol telemetriyasi → ko’rinmas tanazzullar va xavflar.
Fichestorsiz/modellar reyestrisiz markazlashtirilgan monolit → takrorlanuvchanlik mavjud emas.
Tarozi/ma’lumotlar litsenziyalarini e’tiborsiz qoldirish.

Yakunlar

Muvaffaqiyatli AI infratuzilmasi - bu aqlli rejalashtirilgan GPU hovuzlari, yuqori tarmoq va to’g’ri saqlash joylari, samarali serving (batching, kesh, kvantlash, kompilyatsiya), etuk MLOps va qattiq SLO. Xavfsizlik/PII, ko’p mintaqaviy HA/DR va puxta o’ylangan finops bilan birgalikda platforma barqaror p99, nazorat qilinadigan $/so’rov va antifroddan tortib personallashtirish va LLM yordamchilarigacha bo’lgan yangi modellarni tezkor joriy etish imkonini beradi.

Contact

Biz bilan bog‘laning

Har qanday savol yoki yordam bo‘yicha bizga murojaat qiling.Doimo yordam berishga tayyormiz.

Integratsiyani boshlash

Email — majburiy. Telegram yoki WhatsApp — ixtiyoriy.

Ismingiz ixtiyoriy
Email ixtiyoriy
Mavzu ixtiyoriy
Xabar ixtiyoriy
Telegram ixtiyoriy
@
Agar Telegram qoldirilgan bo‘lsa — javob Email bilan birga o‘sha yerga ham yuboriladi.
WhatsApp ixtiyoriy
Format: mamlakat kodi va raqam (masalan, +998XXXXXXXX).

Yuborish orqali ma'lumotlaringiz qayta ishlanishiga rozilik bildirasiz.