AI infrastrukturasy we GPU howuzlary

(Bölüm: Tehnologiýalar we infrastruktura)

Gysgaça gysgaça

"Production-AI" "bir serwerde bir model" däl-de, GPU-düwünleriň, tizlendirijileriň umumy howuzlarynyň, bitewi serwingiň, maglumatlaryň/fiçleriň, gözegçilik etmegiň we çykdajylary dolandyrmagyň bir toparydyr. iGaming üçin bu hakyky wagtda möhümdir: anti-frod, şahsylaşdyrma, söhbetdeşlik botlary, LLM kömekçileri, oýunlar/aksiýalar üçin teklipler. Esasy kerpiçler: meýilnamalaşdyrmak üçin Kubernetes/Slurm, iş ýükleriniň izolýasiýasy, ýokary tizlikli tor (RDMA bilen 100/200/400G), çalt ammar, ýetişen MLOps we "demirbeton" SLO.

1) Binagärlik kartasy

Gatlaklar:

1. Hasaplama klasteri: GPU-kodlar (A/H-synplar, AMD/ROCm, Intel Gaudi we ş.m.), Processing/Fich üçin CPU-kodlar.

2. Tor: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiýalar, QoS.

3. Ammar: obýekt (S3- .) , POSIX (Ceph/grid), lokal NVMe-scratch paýlanan.

4. Maglumatlar/aýratynlyklar: fichestor (online/offline), wektor DB (ANN), nagt pul (Redis), nobatlar.

5. ML-platforma: artefaktlaryň we modelleriň sanawy, paýplaynlar (CI/CD), wersiýalara gözegçilik, kod hökmünde çyzgylar.

6. Hyzmat gatlagy: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, awtoresaýz.

7. Gowernans we howpsuzlyk: PII, syrlar, audit, eksport syýasaty, terazi/data ygtyýarnamalary.

Adaty ýükler:

Onlaýn skoring (p95 ≤ 50-150 ms) - antifrod, teklipler, reýting.
LLM-serving (128-512 token üçin p95 ≤ 200-800 ms) - söhbetdeşlik/agentler/maslahatlar.
Paket seljermesi/goşmaça okuw - gijeki penjireler, oflayn metrikler.
Faýntyuning/uýgunlaşma - wagtal-wagtal, onlaýn derejeden aşakda.

2) GPU-howuzlar we meýilleşdiriş

Howuz modeli

"Serving" howuzy: gysga soraglar, ýokary batching, berk SLO.
"Okuw/Faýntyuning" howuzy: uzyn joblar, paýlanan okuw (DDP).
"R & D/Synaglar" howzy: kwotalar/çäkler, preemption rugsat berilýär.
"CPU/Pre-/Post-processing" howuzy: kadalaşma, tokenizasiýa, rerank.

Meýilleşdirijiler

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (köplenç HPC-okuw üçin) - aýry-aýry workerler arkaly K8s bilen garyşdyrylyp bilner.
Fair-şer we kwotalar: GPU, CPU, ýat boýunça namespace-kwotalar; "banklar" GPU-sagat; neýspeys/taslama boýunça çäkler.

GPU partizasiýasy

MIG (Multi-Instance GPU): tizlendirijini izolirlenen slaýslara kesmek (serwing/multi-tenantlik üçin).
MPS: kiçi meseleler üçin SM paýlaşmak (interferensiýa gözegçilik etmek).
NVLink/PCIe: Topology Aware Scheduling (Topology Aware Scheduling).

K8s-düşündirişleriň mysaly (düşünje):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Tor we içerki öndürijilik

NCCL-allredews üçin RDMA (RoCEv2); ECN/PFC sazlamalary, traffik synplaryny izolirlemek.
Lokalizasiýa: bir "zawodyň" içinde okuw (pod/host/optika), serwing - ulanyja has ýakyn (edge/sebit).
Kongest-gözegçilik: tuned profilleri, jumbo frames, pin-ning interfeýsleri.

4) Ammar we maglumatlar

Terezileri/artefaktlary saklamak: obýekt (wersiýalaşdyrmak, immutability).
Datasets/fiçalar: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online-fichestor (millisekondly SLA).
Wektor BD (ANN): Faiss/ScaNN/tizlendirijiler ýa-da wektor wektor hereketlendirijileri; şardlamak, HNSW/IVF, köpeltmek.
Lokal NVMe-kesh: sowuk başlamak üçin terezileri/embeddingleri gyzdyrmak.

5) Modelleriň hyzmaty

Frameworklar

Triton Inference Server (multimodel, multiruntime, dinamiki batching).
KServe (K8s-native, autoscaling HPA/KPA, kanari).
LLM-tokenizasiýa we ýokary öndürijilikli dekoding üçin vLLM/TGI (paged-attention, KV-kesh offloud).
ONNX Runtime/TensorRT-LLM - ýygnamak we çaltlaşdyrmak üçin.

Optimizasiýa

Kwantasiýa: INT8/FP8/INT4 (percentili/kalibrlemek, AWQ/GPTQ) - onlaýn seresaplylyk bilen, hilini ölçemek.
Grafanyň ýygyndysy: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamiki we statiki; для LLM — continuous batching.
KV-kesh: soraglaryň arasynda paýlaşmak, uzak kontekstlerde CPU/NVMe-de offloud.
Spekulýatiw dekoding: bellikleri çaltlaşdyrmak üçin draft modeli + barlaýjy.
Tokenleriň/kontekstiň çäkleri, irki durmak, durma sözleri, haýyş üçin time-budget.

Deploý syýasaty

A/B, kanari, şadow - gizlinlik/hil/iş metrikleriniň deňeşdirmesi.
Blu-green - downtaýmsyz.
SLO/ýalňyşlyklar boýunça Rollback.

6) Okuw/faýntyuning

DDP/FSDP/ZeRO: paýlanan ýat/gradientler, NVLink/topologiýalary hasaba almak.
Barlag nokatlary: inkremental/doly, ýygylyk vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; durnuklylygy profillemek.
Dataset-şarding: birmeňzeş iterator, düwünlere görä köpeltmek.
Ileri tutulýan ugurlar: serwingiň peýdasyna kesilýän joblar (preemptible).
Awtonom paýlaýjylar: data → train → eval → registr → PROD-da gate-kriteriýalara laýyklykda öňe gidiş.

7) MLOps we platforma

Modelleriň sanawy: wersiýalar, gollar, garaşlylyk, ygtyýarnamalar/agramlary ulanmak hukugy.
CI/CD modelleri: laýyklyk synaglary, çykyş regressiýalary, quality-geýtlar, howpsuz depla.
Fichestor: offline/online tutarlylyk (feature parity), TTL we backfill.
Data/Model Lineage: Hasabatdan/synaga çenli yzarlamak.
LLM üçin önümçilik/şablon katalogy (wersiýa).

8) Synlamak we SLO

Onlaýn metrikler:

Gizlinlik p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, ýat, ýalňyşlyklar.
LLM-aýratynlygy: giriş/çykyş bellikleri, jogabyň ortaça uzynlygy, çäklendirmeler boýunça şowsuzlyklaryň paýy, KV keş-hit.
Hil: awtomatiki regression synaglary (offline), onlaýn telemetriýa (mazmun baýdaklary, zäherliligi, altyn nusgalarda berilmeginiň takyklygy).
Biznes-SLO: şahsylaşdyrmagyň öwrülişigi, antifrodyň takyklygy, saklamak.

Alertler: p99/nobat, tokens/s güýz, batch-fill zaýalanmagy, VRAM/PCIe-throttle tükenmegi, rate-limit şowsuzlyklarynyň ýokarlanmagy.

9) Howpsuzlyk, laýyklyk we gizlinlik

PII/maliýe maglumatlary: sebitler boýunça hasaplamalary we maglumatlary bölmek, ýeke-täk/tranzitde şifrlemek, bellik etmek.
Syrlar/açarlar: KMS/Secrets Manager; şekillerde/kodda saklanylmagyny aradan aýyrmak.
LLM yzyna almak syýasaty: howpsuzlyk süzgüçleri, red-teaming, promppt/jogaplary ýazga almak (anonimleşdirmek bilen).
Ygtyýarnamalar: datasetlere/agramlara ygtyýarnamalara laýyklyk; "no-redistribute "/täjirçilik çäklendirmeleri.
Tenantlaryň izolýasiýasy: namespace-RBAC, torlar, MIG-slaýslar, çäkler we kwotalar.

10) Bahasy we finops

Kapasiti-meýilleşdiriş: ýüküň profilleri (RPS, bellikler/sek), ýaryşlaryň we kampaniýalaryň "guýruklary".
Ätiýaçlyk/Spot: goşulan howuzlar (reserved + spot/preemptible).
Awtoskeýl: RPS/queue depth/GPU-util boýunça HPA/KPA; gyzdyrylan agramly "ýyly başlangyç".
Model haýwanat bagy: wariantlaryň sanyny azaldyň; doly köpeltmegiň ýerine uýgunlaşmagy (LoRA/PEFT) ulanyň.
Nagt pul: embeddingler/gymmat bahaly soraglaryň netijeleri, LLM üçin KV nagt pul paýlamak.
Tokenleri optimizirlemek: promptlary gysmak, retrieval-augmented generation (RAG), rerank generasiýa çenli.

11) Köp sebit, HA we DR

Active/Active serving ulanyja has ýakyn, global routing (latency-based).
Agramlaryň we şekilleriň bitewiligini barlamak bilen köpelmegi; çykarylanda keş gyzdyrylýar.
DR-meýilnama: AZ/sebitiň ýitmegi, ätiýaçlyk howuza ewakuasiýa, merkezleşdirilen kataloga garaşlylyga gözegçilik.
Chaos-days: GPU-nod/tor domen/ammar şowsuzlyk synaglary.

12) Konfigurasiýa şablonlary (düşünjeler)

Triton - dinamiki söweş:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - kanari:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - başlangyç (ideýalar):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-aýratynlygy: RAG we gözleg kontury

Indeksasiýa: çanking, embeddingler, ANN-şardirleme 'tenant/locale'.
Rerank: takyklygy ýokarlandyrmak üçin CPU/GPU slaýsynda ýeňil model.
Prompt/kontekstleri kesmek: dedup, canonicalization.
Duýgur domenler üçin sitata/jogapkärçilik syýasaty (KUS/düzgünler).

14) Girizmegiň çek-sanawy

1. SLO (p95 latency/tokens/s, elýeterlilik) we ýük profillerini düzüň.
2. Klasteri howuzlara bölüň (serving/train/R & D), kwotalary/ileri tutulýan ugurlary giriziň.
3. RDMA/NCCL we topologiki taýdan aňly meýilnamalaşdyrmagy goşuň.
4. Ammarlary sazlaň: tereziler, datasetler, fichestor (online/offline), wektor DB.
5. Hyzmat stekini (Triton/KServe/vLLM) saýlaň, batching/KV-kesh/kwantasiýa goşuň.
6. C/CD, kanari/shadow-deploy modelleriniň sanawyny açyň.
7. Syn edilişini goýuň: ulgamlaýyn iş metrikleri, hil, ýol.
8. Howpsuzlyk syýasatlaryny/PII, ygtyýarnamalary, auditi giriziň.
9. TCO-ny optimize ediň: doly klonlaryň ýerine reserved spot, awtoskeýl, nagt pul, PEFT.
10. HA/DR taýýarlaň we game-day geçiriň.

15) Antipatternler

Howuzlar we ileri tutulýan ugurlar bolmazdan "Hemme zat üçin bir uly GPU".
LLM → p99 partlamasy we bahasy üçin dinamiki batching we KV kesşiniň ýoklugy.
Preemption → SLO-hadysalarsyz bir howuzda okuw we serwing.
Hiliň/howpsuzlygyň nol telemetriýasy → göze görünmeýän pese gaçmalar we töwekgelçilikler.
Merkezleşdirilen monolit fichestor/modelleriň sanawy bolmazdan → köpelmek ukyby ýok.
Terazi/maglumat ygtyýarnamalaryny äsgermezlik etmek.

Netijeler

Üstünlikli AI infrastrukturasy akylly meýilleşdirilen GPU howuzlary, ýokary ulgam we dogry ammar, netijeli hyzmat etmek (batching, nagt pul, kwantasiýa, ýygnamak), ýetişen MLOps we berk SLO. Howpsuzlyk/PII, köp sebitli HA/DR we oýlanyşykly finops bilen bilelikde platforma durnukly p99, gözegçilik edilýän $/haýyş we antifroddan şahsylaşdyrmaga we LLM kömekçilerine çenli täze modelleriň çalt ornaşdyrylmagyny üpjün edýär.

AI infrastrukturasy we GPU howuzlary

Gysgaça gysgaça

Meýilleşdirijiler

GPU partizasiýasy

Optimizasiýa

Deploý syýasaty

Netijeler

Biziň bilen habarlaşyň

Çalt aragatnaşyk

Wideo ýakynda täzelener

Häzirki wagtda taslamalar bilen gaty meşgullandyk