AI infrastrukturu və GPU hovuzları
(Bölmə: Texnologiya və Infrastruktur)
Qısa xülasə
Production-AI «bir serverdə bir model» deyil, GPU qovşaqlarından, ümumi sürətləndirici hovuzlardan, vahid servinqdən, məlumatlardan/rəqəmlərdən, müşahidə və dəyər idarəetməsindən ibarət bir klasterdir. iGaming üçün bu real vaxt kritikdir: antifrod, personallaşdırma, chatbotlar, LLM köməkçiləri, oyun/promosyon tövsiyələri. Əsas kərpiclər: Planlama üçün Kubernetes/Slurm, iş yüklərinin izolyasiyası, yüksək sürətli şəbəkə (RDMA ilə 100/200/400G), sürətli anbarlar, yetkin MLOps və «dəmir-beton» SLO.
1) Memarlıq xəritəsi
Laylar:1. Kompüter klasteri: GPU-nodlar (A/H-siniflər, AMD/ROCm, Intel Gaudi və s.), Preprosessing/Fich üçün CPU-nodlar.
2. Şəbəkə: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiyalar, QoS.
3. Saxlama: obyekt (S3- .) , POSIX paylanmış (Ceph/grid), yerli NVMe-scratch.
4. Verilənlər/fiqurlar: fichestor (online/offline), vektor DD (ANN), cache (Redis), növbələr.
5. ML platforması: artefaktların və modellərin reyestri, payplaynlar (CI/CD), versiya nəzarəti, kod kimi fiçlər.
6. Xidmət təbəqəsi: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, avtoresayz.
7. Hovernans və təhlükəsizlik: PII, sirləri, audit, ixrac siyasəti, tərəzi/data lisenziyaları.
Tipik yüklər:- Onlayn skorinq (p95 ≤ 50-150 ms) - antifrod, tövsiyələr, sıralama.
- LLM-servinq (p95 ≤ 200-800 ms 128-512 tokendə) - chat/agent/ipuçları.
- Paket analitikası/əlavə öyrənmə - gecə pəncərələri, oflayn metriklər.
- Fayntyuninq/adaptasiya - vaxtaşırı, onlayn prioritet altında.
2) GPU hovuzları və planlaşdırma
Hovuz modeli
«Serving» hovuzu: qısa sorğular, yüksək batching, ciddi SLO.
Hovuz «Training/Feintuning»: uzun joblar, paylanmış təlim (DDP).
«R & D/Eksperimentlər» hovuzu: kvotalar/limitlər, preemption icazə verilir.
«CPU/Pre-/Post-processing» hovuzu: normallaşma, tokenizasiya, rerank.
Planlaşdırıcılar
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (tez-tez HPC təlimi üçün) - ayrı-ayrı işçilər vasitəsilə K8s ilə qarışdırıla bilər.
Fair-sher və kvotalar: GPU, CPU, yaddaş namespace-kvotaları; «banklar» GPU-saat; neyspeys/layihə üzrə limitlər.
GPU Partizanlaşdırma
MIG (Multi-Instance GPU): Təcrid edilmiş dilimlərə sürətləndiricinin kəsilməsi (servinq/çox tenantlıq üçün).
MPS: Kiçik tapşırıqlar üçün SM paylaşımı (müdaxiləni izləmək).
NVLink/PCIe: podların pinninqində topologiyanı nəzərə almaq (Topology Aware Scheduling).
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Şəbəkə və qovşaqlararası performans
NCCL-all-redews üçün RDMA (RoCEv2); ECN/PFC parametrləri, izolyasiya trafik sinifləri.
Lokalizasiya: bir «fabrik» daxilində təlim (pod/host/optika), servinq - istifadəçiyə daha yaxın (edge/region).
Congest control: tuned profilləri, jumbo frames, pin-nin interfeys.
4) Saxlama və məlumat
Tərəzi/artefaktların saxlanması: obyekt (versiyalaşdırma, immutability).
Datasets/Fiches: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online fichestor (millisaniyəlik SLA).
Vektor DD (ANN): Faiss/ScaNN/sürətləndiricilər və ya vendor vektor mühərrikləri; charding, HNSW/IVF, replikasiyalar.
Yerli NVMe-cache: soyuq başlanğıc üçün tərəzi/embeddinq qızdırılması.
5) Servinq modelləri
Frameworks
Triton Inference Server (multimodel, multiruntime, dinamik batching).
KServe (K8s-native, autoscaling HPA/KPA, kanari).
LLM tokenizasiya və yüksək performanslı dekodinq üçün vLLM/TGI (paged-attention, KV-cache offloud).
ONNX Runtime/TensorRT-LLM - kompilyasiya və sürətləndirmə üçün.
Optimallaşdırma
Kvantlama: INT8/FP8/INT4 (üzlük/kalibrləmə, AWQ/GPTQ) - onlayn ehtiyatla, keyfiyyəti ölçün.
Qrafın kompilyasiyası: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamik və statik; для LLM — continuous batching.
KV-cache: sorğular arasında paylaşma, uzun kontekstlərdə CPU/NVMe offload.
Spekulyativ dekodinq: token tələffüzünü sürətləndirmək üçün draft modeli + yoxlayıcı.
Tokenlərin/kontekstin limitləri, erkən dayanma, dayandırma sözləri, sorğu üçün time-budget.
Deploi siyasəti
A/B, kanari, shadow - gecikmə/keyfiyyət/biznes metrik müqayisəsi.
Blue Green - downtime olmadan.
SLO/səhvlər üzrə Rollback.
6) Təlim/fayntuninq
DDP/FSDP/ZeRO: paylanmış yaddaş/qradiyentlər, NVLink/topologiyaların uçotu.
Çek nöqtələri: artımlı/tam, tezlik vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; sabitlik profil.
Dataset-şardinq: vahid iterator, düyünlərə görə replikasiya.
Prioritetlər: Servinqin lehinə kəsilən joblar (preemptible).
Avtonom payplaynlar: data → train → eval → registr → PROD-da gate kriteriyaları ilə təşviq.
7) MLOps və platforma
Model reyestri: versiyalar, imzalar, asılılıqlar, lisenziyalar/tərəzi istifadə hüququ.
CI/CD modelləri: uyğunluq testləri, performans regressiyaları, keyfiyyət geytaları, təhlükəsiz deploy.
Fichestor: offline/online sabitlik (feature parity), TTL və backfill.
Data/Model Lineage: hesabat/eksperiment tarixindən izləmə.
LLM üçün prompps/şablon kataloqu (version).
8) Müşahidə və SLO
Onlayn metriklər:- Gecikmə p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, yaddaş, səhvlər.
- LLM-spesifikasiyası: giriş/çıxış tokenləri, cavabın orta uzunluğu, limit uğursuzluqlarının nisbəti, KV cash-hit.
- Keyfiyyət: avtomatik regressiya testləri (offline), onlayn telemetriya (məzmun bayraqları, toksikliyi, qızıl nümunələrində emissiya dəqiqliyi).
- Biznes SLO: fərdiləşdirmə konvertasiyası, antifrod dəqiqliyi, saxlama.
Alertlər: p99/növbə artımı, tokens/s düşməsi, batch-fill deqradasiyası, VRAM/PCIe-throttle tükənməsi, rate-limit arızalarının artımı.
9) Təhlükəsizlik, uyğunluq və məxfilik
PII/maliyyə məlumatları: hesablama və regionlar üzrə məlumatların seqmentləşdirilməsi, dinc/tranzit şifrələmə, tokenizasiya.
Secrets/Keys: KMS/Secrets Manager; görüntülərdə/kodda saxlanılmasını istisna etmək.
LLM çıxış siyasəti: təhlükəsizlik filtrləri, red-teaming, prompt/cavabların jurnallaşdırılması (anonimləşdirmə ilə).
Lisenziyalar: dataset/çəki lisenziyalarına uyğunluq; «no-redistribute «/kommersiya məhdudiyyətləri.
Tenantların izolyasiyası: namespace-RBAC, şəbəkələr, MIG slaydları, limitlər və kvotalar.
10) Qiymət və finops
Kapasiti planlaşdırma: yükləmə profilləri (RPS, tokenlər/san), turnirlər və kampaniyaların «quyruqları».
Rezerv/Spot: təkrar tapşırıqlar və yoxlama nöqtələri ilə qarışıq hovuzlar (reserved + spot/preemptible).
Avtoskeyl: RPS/queue depth/GPU-util ilə HPA/KPA; qızdırılmış tərəzi ilə «isti başlanğıc».
Model zooparkı: variantların sayını azaltın; tam dublyaj əvəzinə adaptasiyadan (LoRA/PEFT) istifadə edin.
Cache: embedding/bahalı sorğuların nəticələri, LLM üçün KV cache paylaşımı.
Tokenlərin optimallaşdırılması: istehsaldan əvvəl prompların sıxılması, retrieval-augmented generation (RAG), rerank.
11) Multiregion, HA və DR
Active/Active Serving istifadəçiyə daha yaxındır, qlobal marşrutlaşdırma (latency-based).
Bütövlük yoxlaması ilə tərəzi və fich replikasiyası; buraxılışlarda cache qızdırılması.
DR-plan: AZ/region itkisi, ehtiyat hovuza təxliyə, mərkəzləşdirilmiş kataloqdan asılılıq nəzarəti.
Chaos-days: GPU-nod/şəbəkə domen/saxlama uğursuzluq testləri.
12) Konfiqurasiya şablonları (konsepsiyalar)
Triton - dinamik batching:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - kanari:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - başlanğıc (fikirlər):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM-spesifikasiyası: RAG və axtarış konturu
Indeksləşdirmə: chancking, embeddingi, ANN-charding 'tenant/locale'.
Rerank: dəqiqliyi artırmaq üçün CPU/GPU slaysında yüngül model.
Cache prompts/kontekstlər: dedup, canonicalization.
Həssas domenlər üçün sitat/məsuliyyət siyasəti (CUS/qaydalar).
14) Giriş çek siyahısı
1. SLO (p95 latency/tokens/s, mövcudluq) və yükləmə profillərini qeyd edin.
2. Klasteri hovuzlara bölün (serving/train/R & D), kvotaları/prioritetləri daxil edin.
3. RDMA/NCCL və topoloji şüurlu planlaşdırma daxil edin.
4. Anbarları konfiqurasiya edin: tərəzi, dataset, fichestor (online/offline), vektor DB.
5. Bir xidmət yığını seçin (Triton/KServe/vLLM), batching/KV-cache/kvantlama əlavə edin.
6. Model reyestrini, CI/CD, Kanari/Shadow Deploy.
7. Müşahidə qoyun: sistem + biznes metrikası, keyfiyyət, izləmə.
8. Təhlükəsizlik siyasəti/PII, lisenziyalar, audit daxil edin.
9. TCO optimallaşdırın: tam klonlar əvəzinə reserved + spot, avtoskeyl, cache, PEFT.
10. HA/DR hazırlayın və game-day keçirin.
15) Antipattern
Hovuzlar və prioritetlər olmadan «Bütün üçün bir böyük GPU».
LLM → p99 partlayış və dəyəri üçün dinamik batching və KV cache yoxdur.
Preemption → SLO hadisələri olmadan bir hovuzda təlim və xidmət.
Sıfır keyfiyyət/təhlükəsizlik telemetri → görünməz deqradasiya və risklər.
Fichestor/model reyestri olmadan mərkəzləşdirilmiş monolit → təkrarlanabilirlik yoxdur.
Tartı/məlumat lisenziyalarına məhəl qoymamaq.
Nəticələr
Uğurlu AI infrastrukturu ağıllı planlaşdırma, yüksək şəbəkə və düzgün saxlama, effektiv xidmət (batching, cache, kvanting, kompilyasiya), yetkin MLOps və ciddi SLO olan GPU hovuzlarıdır. Təhlükəsizlik/PII, multi-region HA/DR və düşünülmüş finops ilə birlikdə platforma sabit p99, $/sorğu nəzarət və anti-frod-dan personalizasiyaya və LLM köməkçilərinə qədər yeni modellərin sürətli tətbiqini təmin edir.