AI-infratuzilma va GPU-pullar
(Bo’lim: Texnologiyalar va infratuzilma)
Qisqacha xulosa
Prodakshn-AI - bu «bitta serverda bitta model» emas, balki GPU uzellari, tezlatkichlarning umumiy pullari, unifikatsiyalangan serving, ma’lumotlar/fichlar, kuzatuv va qiymatni boshqarish klasteridir. iGaming uchun bu real vaqtda juda muhim: antifrod, shaxsiylashtirish, chatbotlar, LLM yordamchilari, o’yin/aksiyalar tavsiyalari. Asosiy g’ishtlar: rejalashtirish uchun Kubernetes/Slurm, ish yuklarini izolyatsiya qilish, yuqori tezlikdagi tarmoq (RDMA bilan 100/200/400G), tezkor saqlash joylari, yetuk MLOps va «temir-beton» SLO.
1) Arxitektura xaritasi
Qatlamlar:1. Hisoblash klasteri: GPU-kodlar (A/H-klasslar, AMD/ROCm, Intel Gaudi va shu kabilar), preprosessing/chichlar uchun CPU-kodlar.
2. Tarmoq: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiyalar, QoS.
3. Saqlash joyi: obyekt (S3- .) , tarqatilgan POSIX (Ceph/grid), lokal NVMe-scratch.
4. Ma’lumotlar/fitnalar: fichestor (online/offline), vektor DB (ANN), kesh (Redis), navbatlar.
5. ML-platforma: artefaktlar va modellar reyestri, payplaynlar (CI/CD), versiyalarni nazorat qilish, fichi kod sifatida.
6. Xizmat qatlami: Triton/KServe/vLLM/text-generation-inference (TGI), A/V/kanari-deploy, avtoresayz.
7. Governans va xavfsizlik: PII, sirlar, audit, eksport siyosati, tarozilar/sanalar litsenziyasi.
Namunaviy yuklamalar:- Onlayn-skoring (p95 ≤ 50-150 ms) - antifrod, tavsiyalar, reyting.
- LLM-serving (128-512 tokenga p95 ≤ 200-800 ms) - chat/agentlar/maslahatlar.
- To’plamli tahlil/qo’shimcha o’qitish - tungi derazalar, oflayn metriklar.
- Fayntyuning/moslashish - vaqti-vaqti bilan, onlayn ustuvorlikdan past.
2) GPU-pullar va rejalashtirish
Pullar modeli
«Serving» hovuzi: qisqa so’rovlar, yuqori batching, qattiq SLO.
«Trening/Fayntyuning» puli: uzoq joblar, taqsimlangan trening (DDP).
«R & D/Eksperimentlar» puli: kvotalar/limitlar, preemption ruxsat etilgan.
«CPU/Pre-/Post-processing» puli: normallashtirish, tokenlashtirish, CPUda rerank.
Rejalashtiruvchilar
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (ko’pincha HPC-trening uchun) - K8s bilan alohida mashg’ulotlar orqali aralashtirilishi mumkin.
Fair-sher va kvotalar: GPU, CPU, xotira bo’yicha namespace-kvotalar; «banklar» GPU-soat; neyspeys/loyiha bo’yicha limitlar.
GPUni partiyalash
MIG (Multi-Instance GPU): tezlatgichni izolyatsiyalangan slayslarga kesish (serving/multi-tenantlik uchun).
MPS: kichik vazifalar uchun sharing SM (interferentsiyani kuzatish).
NVLink/PCIe: podalar pinningida topologiyani hisobga olish.
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Tarmoq va tarmoqlararo unumdorlik
NCCL-all-redyuslar uchun RDMA (RoCEv2); ECN/PFC moslamalari, trafikni izolyatsiya qilish.
Mahalliylashtirish: bitta «fabrika» ichidagi trening (pod/host/optika), serving - foydalanuvchiga yaqin (edge/mintaqa).
Congest-control: tuned profillar, jumbo frames, pin-ning interfeyslari.
4) Ombor va ma’lumotlar
Tarozilar/artefaktlar ombori: obyekt (versiyalash, immutability).
Datasetы/fichi: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online-fichestor (millisekundlik SLA).
Vektor BD (ANN): Faiss/ScaNN/akseleratorlar yoki vendor vektor dvigatellari; shardalash, HNSW/IVF, replikatsiyalar.
Lokal NVMe-kesh: sovuq boshlash uchun tarozi/embeddinglarni isitish.
5) Modellarning servingi
Frameworks
Triton Inference Server (multimodel, multiruntaym, dinamik batching).
KServe (K8s-nativ, autoscaling HPA/KPA, kanari).
vLLM/TGI uchun LLM-tokenizatsiya va yuqori unumli dekoding (paged-attention, KV-kesh offloud).
ONNX Runtime/TensorRT-LLM - kompilyatsiya qilish va tezlashtirish uchun.
Optimallashtirish
Kvantlash: INT8/FP8/INT4 (pertsentili/kalibrlash, AWQ/GPTQ) - onlayn tarzda ehtiyot bo’lish, sifatni o’lchash.
Grafaning kompilyatsiyasi: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamik va statik; для LLM — continuous batching.
KV-kesh: soʻrovlar oʻrtasida sharing, uzoq kontekstlarda CPU/NVMe uchun offloud.
Spekulyativ dekoding: token-talqinni tezlashtirish uchun draft-model + verifikator.
Token/kontekst limitlari, erta to’xtash, to’xtash so’zlari, so’rov uchun time-budget.
Deploy siyosati
A/B, kanari, shadow - latentlik/sifat/biznes metrikasini taqqoslash.
Blu-grin - pastga tushmasdan.
SLO/xatolar bo’yicha rollbek.
6) Trening/fayntyuning
DDP/FSDP/ZeRO: taqsimlangan xotira/gradientlar, NVLink/topologiyalar hisobi.
Chek pointlari: inkremental/to’liq, chastotasi vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; barqarorlikni profillash.
Dataset-sharding: bir tekis iterator, uzellar bo’yicha replikatsiya.
Ustuvorliklar: serving foydasiga uzilayotgan joblar (preemptible).
Avtonom payplaynlar: data → train → eval → registr → PRODda gate-mezonlar bo’yicha oldinga siljish.
7) MLOps va platforma
Modellar reyestri: versiyalar, imzolar, qaramliklar, litsenziyalar/tarozidan foydalanish huquqi.
CI/CD modellari: muvofiqlik testlari, ijro regressiyalari, quality-geytlar, xavfsiz deploy.
Fichestor: offline/online konsistentlik (feature parity), TTL va backfill.
Data/Model Lineage: hisobotdan hisobotgacha/eksperimentgacha.
LLM uchun prompt/shablon katalogi (version).
8) Kuzatuv va SLO
Onlayn metrika:- Latentlik p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, xotira, xatolar.
- LLM-spetsifikasi: kirish/chiqish tokenlari, javobning o’rtacha uzunligi, limit bo’yicha nosozliklar ulushi, kash-hit KV.
- Sifati: avtomatik regression testlar (offline), onlayn-telemetriya (kontent bayroqlari, toksikligi, oltin tanlamalarda berishning aniqligi).
- Biznes-SLO: shaxsiylashtirish konvertatsiyasi, antifrod aniqligi, ushlab turish.
Alertlar: p99/navbat o’sishi, tokens/s tushishi, batch-fill degradatsiyasi, VRAM/PCIe-throttle tugashi, nosozliklarning rate-limit o’sishi.
9) Xavfsizlik, komplayens va maxfiylik
PII/moliyaviy ma’lumotlar: hududlar bo’yicha hisoblash va ma’lumotlarni segmentlash, tinch/tranzitda shifrlash, tokenlashtirish.
Sirlar/kalitlar: KMS/Secrets Manager; tasvirlarda/kodda saqlanishini istisno etish.
LLM chiqish siyosati: xavfsizlik filtrlari, red-teaming, prompt/javoblarni jurnallash (anonimlashtirish bilan).
Litsenziyalar: datasetga/vaznga litsenziyalarga muvofiqligi; «no-redistribute «/tijorat cheklovlari.
Tenantlarni izolyatsiya qilish: namespace-RBAC, tarmoqlar, MIG-slayslar, limitlar va kvotalar.
10) Qiymati va finops
Kapasiti-rejalashtirish: yuklama profillari (RPS, tokenlar/sek), turnirlar va kampaniyalarning «dumlari».
Rezerv/Spot: aralash pullar (reserved + spot/preemptible) qayta qo’yilgan vazifalar va chekpindlar bilan.
Avtoskeyl: RPS/queue depth/GPU-util bo’yicha HPA/KPA; isitilgan tarozilar bilan «iliq start».
Model hayvonot bog’i: variantlar sonini qisqartiring; to’liq takrorlash o’rniga moslashuvdan (LoRA/PEFT) foydalaning.
Kesh: embeddingi/qimmatbaho so’rovlar natijalari, LLM uchun KV kesh sharing.
Tokenlarni optimallashtirish: sanoatni siqish, retrieval-augmented generation (RAG), rerank.
11) Multiregion, HA va DR
Active/Active serving foydalanuvchiga yaqinroq, global routing (latency-based).
Tarozi va chichlarni yaxlitligini tekshirgan holda replikatsiya qilish; relizlar paytida keshlarni isitish.
DR-reja: AZ/mintaqani yo’qotish, zaxira hovuziga evakuatsiya qilish, markazlashtirilgan katalogga qaramlikni nazorat qilish.
Chaos-days: GPU-nod/tarmoq domenlari/omborning nosozlik testlari.
12) Konfiguratsiya shablonlari (konseptlar)
Triton - dinamik batching:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - kanari:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - ishga tushirish (g’oyalar):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM-spetsifikasi: RAG va qidiruv konturi
Indeksatsiya: chanking, embeddingi,’tenant/locale’bo’yicha ANN-shardlash.
Rerank: aniqlikni oshirish uchun CPU/GPU-slaysda engil model.
Prompt/kontekstlar kesh: dedup, canonicalization.
Sezgir domenlar uchun iqtibos/javobgarlik siyosati (KTS/qoidalar).
14) Joriy etish chek-varaqasi
1. SLO (p95 latency/tokens/s, foydalanish imkoniyati) va yuklash profillarini oʻrnating.
2. Klasterni pulga ajrating (serving/train/R & D), kvotalarni/ustuvorliklarni kiriting.
3. RDMA/NCCL va topologik ongli rejalashtirishni kiriting.
4. Omborlarni moslashtiring: tarozilar, datasetlar, fichestor (online/offline), vektor DB.
5. Serving stekini tanlang (Triton/KServe/vLLM), batching/KV-kesh/kvantlash qoʻshing.
6. Modellar, CI/CD, kanari/shadou-deploy roʻyxatini ishga tushiring.
7. Kuzatish darajasini belgilang: tizimli + biznes metrika, sifat, trassing.
8. Xavfsizlik/PII, litsenziyalar, audit siyosatini kiriting.
9. To’liq klonlar o’rniga TCO: reserved + spot, avtoskayl, kesh, PEFT ni optimallashtiring.
10. HA/DR ni tayyorlang va game-day o’tkazing.
15) Antipatternlar
«Hamma uchun bitta katta GPU» pulsiz va ustuvorliksiz.
LLM → p99 portlashi va qiymati uchun dinamik batching va KV-kesh yo’qligi.
Preemption → SLO-hodisalarsiz bitta hovuzda trening va serving.
Sifat/xavfsizlikning nol telemetriyasi → ko’rinmas tanazzullar va xavflar.
Fichestorsiz/modellar reyestrisiz markazlashtirilgan monolit → takrorlanuvchanlik mavjud emas.
Tarozi/ma’lumotlar litsenziyalarini e’tiborsiz qoldirish.
Yakunlar
Muvaffaqiyatli AI infratuzilmasi - bu aqlli rejalashtirilgan GPU hovuzlari, yuqori tarmoq va to’g’ri saqlash joylari, samarali serving (batching, kesh, kvantlash, kompilyatsiya), etuk MLOps va qattiq SLO. Xavfsizlik/PII, ko’p mintaqaviy HA/DR va puxta o’ylangan finops bilan birgalikda platforma barqaror p99, nazorat qilinadigan $/so’rov va antifroddan tortib personallashtirish va LLM yordamchilarigacha bo’lgan yangi modellarni tezkor joriy etish imkonini beradi.