AI infrastrukturasy we GPU howuzlary
(Bölüm: Tehnologiýalar we infrastruktura)
Gysgaça gysgaça
"Production-AI" "bir serwerde bir model" däl-de, GPU-düwünleriň, tizlendirijileriň umumy howuzlarynyň, bitewi serwingiň, maglumatlaryň/fiçleriň, gözegçilik etmegiň we çykdajylary dolandyrmagyň bir toparydyr. iGaming üçin bu hakyky wagtda möhümdir: anti-frod, şahsylaşdyrma, söhbetdeşlik botlary, LLM kömekçileri, oýunlar/aksiýalar üçin teklipler. Esasy kerpiçler: meýilnamalaşdyrmak üçin Kubernetes/Slurm, iş ýükleriniň izolýasiýasy, ýokary tizlikli tor (RDMA bilen 100/200/400G), çalt ammar, ýetişen MLOps we "demirbeton" SLO.
1) Binagärlik kartasy
Gatlaklar:1. Hasaplama klasteri: GPU-kodlar (A/H-synplar, AMD/ROCm, Intel Gaudi we ş.m.), Processing/Fich üçin CPU-kodlar.
2. Tor: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiýalar, QoS.
3. Ammar: obýekt (S3- .) , POSIX (Ceph/grid), lokal NVMe-scratch paýlanan.
4. Maglumatlar/aýratynlyklar: fichestor (online/offline), wektor DB (ANN), nagt pul (Redis), nobatlar.
5. ML-platforma: artefaktlaryň we modelleriň sanawy, paýplaynlar (CI/CD), wersiýalara gözegçilik, kod hökmünde çyzgylar.
6. Hyzmat gatlagy: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, awtoresaýz.
7. Gowernans we howpsuzlyk: PII, syrlar, audit, eksport syýasaty, terazi/data ygtyýarnamalary.
Adaty ýükler:- Onlaýn skoring (p95 ≤ 50-150 ms) - antifrod, teklipler, reýting.
- LLM-serving (128-512 token üçin p95 ≤ 200-800 ms) - söhbetdeşlik/agentler/maslahatlar.
- Paket seljermesi/goşmaça okuw - gijeki penjireler, oflayn metrikler.
- Faýntyuning/uýgunlaşma - wagtal-wagtal, onlaýn derejeden aşakda.
2) GPU-howuzlar we meýilleşdiriş
Howuz modeli
"Serving" howuzy: gysga soraglar, ýokary batching, berk SLO.
"Okuw/Faýntyuning" howuzy: uzyn joblar, paýlanan okuw (DDP).
"R & D/Synaglar" howzy: kwotalar/çäkler, preemption rugsat berilýär.
"CPU/Pre-/Post-processing" howuzy: kadalaşma, tokenizasiýa, rerank.
Meýilleşdirijiler
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (köplenç HPC-okuw üçin) - aýry-aýry workerler arkaly K8s bilen garyşdyrylyp bilner.
Fair-şer we kwotalar: GPU, CPU, ýat boýunça namespace-kwotalar; "banklar" GPU-sagat; neýspeys/taslama boýunça çäkler.
GPU partizasiýasy
MIG (Multi-Instance GPU): tizlendirijini izolirlenen slaýslara kesmek (serwing/multi-tenantlik üçin).
MPS: kiçi meseleler üçin SM paýlaşmak (interferensiýa gözegçilik etmek).
NVLink/PCIe: Topology Aware Scheduling (Topology Aware Scheduling).
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Tor we içerki öndürijilik
NCCL-allredews üçin RDMA (RoCEv2); ECN/PFC sazlamalary, traffik synplaryny izolirlemek.
Lokalizasiýa: bir "zawodyň" içinde okuw (pod/host/optika), serwing - ulanyja has ýakyn (edge/sebit).
Kongest-gözegçilik: tuned profilleri, jumbo frames, pin-ning interfeýsleri.
4) Ammar we maglumatlar
Terezileri/artefaktlary saklamak: obýekt (wersiýalaşdyrmak, immutability).
Datasets/fiçalar: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online-fichestor (millisekondly SLA).
Wektor BD (ANN): Faiss/ScaNN/tizlendirijiler ýa-da wektor wektor hereketlendirijileri; şardlamak, HNSW/IVF, köpeltmek.
Lokal NVMe-kesh: sowuk başlamak üçin terezileri/embeddingleri gyzdyrmak.
5) Modelleriň hyzmaty
Frameworklar
Triton Inference Server (multimodel, multiruntime, dinamiki batching).
KServe (K8s-native, autoscaling HPA/KPA, kanari).
LLM-tokenizasiýa we ýokary öndürijilikli dekoding üçin vLLM/TGI (paged-attention, KV-kesh offloud).
ONNX Runtime/TensorRT-LLM - ýygnamak we çaltlaşdyrmak üçin.
Optimizasiýa
Kwantasiýa: INT8/FP8/INT4 (percentili/kalibrlemek, AWQ/GPTQ) - onlaýn seresaplylyk bilen, hilini ölçemek.
Grafanyň ýygyndysy: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamiki we statiki; для LLM — continuous batching.
KV-kesh: soraglaryň arasynda paýlaşmak, uzak kontekstlerde CPU/NVMe-de offloud.
Spekulýatiw dekoding: bellikleri çaltlaşdyrmak üçin draft modeli + barlaýjy.
Tokenleriň/kontekstiň çäkleri, irki durmak, durma sözleri, haýyş üçin time-budget.
Deploý syýasaty
A/B, kanari, şadow - gizlinlik/hil/iş metrikleriniň deňeşdirmesi.
Blu-green - downtaýmsyz.
SLO/ýalňyşlyklar boýunça Rollback.
6) Okuw/faýntyuning
DDP/FSDP/ZeRO: paýlanan ýat/gradientler, NVLink/topologiýalary hasaba almak.
Barlag nokatlary: inkremental/doly, ýygylyk vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; durnuklylygy profillemek.
Dataset-şarding: birmeňzeş iterator, düwünlere görä köpeltmek.
Ileri tutulýan ugurlar: serwingiň peýdasyna kesilýän joblar (preemptible).
Awtonom paýlaýjylar: data → train → eval → registr → PROD-da gate-kriteriýalara laýyklykda öňe gidiş.
7) MLOps we platforma
Modelleriň sanawy: wersiýalar, gollar, garaşlylyk, ygtyýarnamalar/agramlary ulanmak hukugy.
CI/CD modelleri: laýyklyk synaglary, çykyş regressiýalary, quality-geýtlar, howpsuz depla.
Fichestor: offline/online tutarlylyk (feature parity), TTL we backfill.
Data/Model Lineage: Hasabatdan/synaga çenli yzarlamak.
LLM üçin önümçilik/şablon katalogy (wersiýa).
8) Synlamak we SLO
Onlaýn metrikler:- Gizlinlik p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, ýat, ýalňyşlyklar.
- LLM-aýratynlygy: giriş/çykyş bellikleri, jogabyň ortaça uzynlygy, çäklendirmeler boýunça şowsuzlyklaryň paýy, KV keş-hit.
- Hil: awtomatiki regression synaglary (offline), onlaýn telemetriýa (mazmun baýdaklary, zäherliligi, altyn nusgalarda berilmeginiň takyklygy).
- Biznes-SLO: şahsylaşdyrmagyň öwrülişigi, antifrodyň takyklygy, saklamak.
Alertler: p99/nobat, tokens/s güýz, batch-fill zaýalanmagy, VRAM/PCIe-throttle tükenmegi, rate-limit şowsuzlyklarynyň ýokarlanmagy.
9) Howpsuzlyk, laýyklyk we gizlinlik
PII/maliýe maglumatlary: sebitler boýunça hasaplamalary we maglumatlary bölmek, ýeke-täk/tranzitde şifrlemek, bellik etmek.
Syrlar/açarlar: KMS/Secrets Manager; şekillerde/kodda saklanylmagyny aradan aýyrmak.
LLM yzyna almak syýasaty: howpsuzlyk süzgüçleri, red-teaming, promppt/jogaplary ýazga almak (anonimleşdirmek bilen).
Ygtyýarnamalar: datasetlere/agramlara ygtyýarnamalara laýyklyk; "no-redistribute "/täjirçilik çäklendirmeleri.
Tenantlaryň izolýasiýasy: namespace-RBAC, torlar, MIG-slaýslar, çäkler we kwotalar.
10) Bahasy we finops
Kapasiti-meýilleşdiriş: ýüküň profilleri (RPS, bellikler/sek), ýaryşlaryň we kampaniýalaryň "guýruklary".
Ätiýaçlyk/Spot: goşulan howuzlar (reserved + spot/preemptible).
Awtoskeýl: RPS/queue depth/GPU-util boýunça HPA/KPA; gyzdyrylan agramly "ýyly başlangyç".
Model haýwanat bagy: wariantlaryň sanyny azaldyň; doly köpeltmegiň ýerine uýgunlaşmagy (LoRA/PEFT) ulanyň.
Nagt pul: embeddingler/gymmat bahaly soraglaryň netijeleri, LLM üçin KV nagt pul paýlamak.
Tokenleri optimizirlemek: promptlary gysmak, retrieval-augmented generation (RAG), rerank generasiýa çenli.
11) Köp sebit, HA we DR
Active/Active serving ulanyja has ýakyn, global routing (latency-based).
Agramlaryň we şekilleriň bitewiligini barlamak bilen köpelmegi; çykarylanda keş gyzdyrylýar.
DR-meýilnama: AZ/sebitiň ýitmegi, ätiýaçlyk howuza ewakuasiýa, merkezleşdirilen kataloga garaşlylyga gözegçilik.
Chaos-days: GPU-nod/tor domen/ammar şowsuzlyk synaglary.
12) Konfigurasiýa şablonlary (düşünjeler)
Triton - dinamiki söweş:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - kanari:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - başlangyç (ideýalar):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM-aýratynlygy: RAG we gözleg kontury
Indeksasiýa: çanking, embeddingler, ANN-şardirleme 'tenant/locale'.
Rerank: takyklygy ýokarlandyrmak üçin CPU/GPU slaýsynda ýeňil model.
Prompt/kontekstleri kesmek: dedup, canonicalization.
Duýgur domenler üçin sitata/jogapkärçilik syýasaty (KUS/düzgünler).
14) Girizmegiň çek-sanawy
1. SLO (p95 latency/tokens/s, elýeterlilik) we ýük profillerini düzüň.
2. Klasteri howuzlara bölüň (serving/train/R & D), kwotalary/ileri tutulýan ugurlary giriziň.
3. RDMA/NCCL we topologiki taýdan aňly meýilnamalaşdyrmagy goşuň.
4. Ammarlary sazlaň: tereziler, datasetler, fichestor (online/offline), wektor DB.
5. Hyzmat stekini (Triton/KServe/vLLM) saýlaň, batching/KV-kesh/kwantasiýa goşuň.
6. C/CD, kanari/shadow-deploy modelleriniň sanawyny açyň.
7. Syn edilişini goýuň: ulgamlaýyn iş metrikleri, hil, ýol.
8. Howpsuzlyk syýasatlaryny/PII, ygtyýarnamalary, auditi giriziň.
9. TCO-ny optimize ediň: doly klonlaryň ýerine reserved spot, awtoskeýl, nagt pul, PEFT.
10. HA/DR taýýarlaň we game-day geçiriň.
15) Antipatternler
Howuzlar we ileri tutulýan ugurlar bolmazdan "Hemme zat üçin bir uly GPU".
LLM → p99 partlamasy we bahasy üçin dinamiki batching we KV kesşiniň ýoklugy.
Preemption → SLO-hadysalarsyz bir howuzda okuw we serwing.
Hiliň/howpsuzlygyň nol telemetriýasy → göze görünmeýän pese gaçmalar we töwekgelçilikler.
Merkezleşdirilen monolit fichestor/modelleriň sanawy bolmazdan → köpelmek ukyby ýok.
Terazi/maglumat ygtyýarnamalaryny äsgermezlik etmek.
Netijeler
Üstünlikli AI infrastrukturasy akylly meýilleşdirilen GPU howuzlary, ýokary ulgam we dogry ammar, netijeli hyzmat etmek (batching, nagt pul, kwantasiýa, ýygnamak), ýetişen MLOps we berk SLO. Howpsuzlyk/PII, köp sebitli HA/DR we oýlanyşykly finops bilen bilelikde platforma durnukly p99, gözegçilik edilýän $/haýyş we antifroddan şahsylaşdyrmaga we LLM kömekçilerine çenli täze modelleriň çalt ornaşdyrylmagyny üpjün edýär.