AI infrastrukturu və GPU hovuzları

(Bölmə: Texnologiya və Infrastruktur)

Qısa xülasə

Production-AI «bir serverdə bir model» deyil, GPU qovşaqlarından, ümumi sürətləndirici hovuzlardan, vahid servinqdən, məlumatlardan/rəqəmlərdən, müşahidə və dəyər idarəetməsindən ibarət bir klasterdir. iGaming üçün bu real vaxt kritikdir: antifrod, personallaşdırma, chatbotlar, LLM köməkçiləri, oyun/promosyon tövsiyələri. Əsas kərpiclər: Planlama üçün Kubernetes/Slurm, iş yüklərinin izolyasiyası, yüksək sürətli şəbəkə (RDMA ilə 100/200/400G), sürətli anbarlar, yetkin MLOps və «dəmir-beton» SLO.

1) Memarlıq xəritəsi

Laylar:

1. Kompüter klasteri: GPU-nodlar (A/H-siniflər, AMD/ROCm, Intel Gaudi və s.), Preprosessing/Fich üçün CPU-nodlar.

2. Şəbəkə: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-topologiyalar, QoS.

3. Saxlama: obyekt (S3- .) , POSIX paylanmış (Ceph/grid), yerli NVMe-scratch.

4. Verilənlər/fiqurlar: fichestor (online/offline), vektor DD (ANN), cache (Redis), növbələr.

5. ML platforması: artefaktların və modellərin reyestri, payplaynlar (CI/CD), versiya nəzarəti, kod kimi fiçlər.

6. Xidmət təbəqəsi: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, avtoresayz.

7. Hovernans və təhlükəsizlik: PII, sirləri, audit, ixrac siyasəti, tərəzi/data lisenziyaları.

Tipik yüklər:

Onlayn skorinq (p95 ≤ 50-150 ms) - antifrod, tövsiyələr, sıralama.
LLM-servinq (p95 ≤ 200-800 ms 128-512 tokendə) - chat/agent/ipuçları.
Paket analitikası/əlavə öyrənmə - gecə pəncərələri, oflayn metriklər.
Fayntyuninq/adaptasiya - vaxtaşırı, onlayn prioritet altında.

2) GPU hovuzları və planlaşdırma

Hovuz modeli

«Serving» hovuzu: qısa sorğular, yüksək batching, ciddi SLO.
Hovuz «Training/Feintuning»: uzun joblar, paylanmış təlim (DDP).
«R & D/Eksperimentlər» hovuzu: kvotalar/limitlər, preemption icazə verilir.
«CPU/Pre-/Post-processing» hovuzu: normallaşma, tokenizasiya, rerank.

Planlaşdırıcılar

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (tez-tez HPC təlimi üçün) - ayrı-ayrı işçilər vasitəsilə K8s ilə qarışdırıla bilər.
Fair-sher və kvotalar: GPU, CPU, yaddaş namespace-kvotaları; «banklar» GPU-saat; neyspeys/layihə üzrə limitlər.

GPU Partizanlaşdırma

MIG (Multi-Instance GPU): Təcrid edilmiş dilimlərə sürətləndiricinin kəsilməsi (servinq/çox tenantlıq üçün).
MPS: Kiçik tapşırıqlar üçün SM paylaşımı (müdaxiləni izləmək).
NVLink/PCIe: podların pinninqində topologiyanı nəzərə almaq (Topology Aware Scheduling).

K8s-annotasiyaların nümunəsi (konsepsiya):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Şəbəkə və qovşaqlararası performans

NCCL-all-redews üçün RDMA (RoCEv2); ECN/PFC parametrləri, izolyasiya trafik sinifləri.
Lokalizasiya: bir «fabrik» daxilində təlim (pod/host/optika), servinq - istifadəçiyə daha yaxın (edge/region).
Congest control: tuned profilləri, jumbo frames, pin-nin interfeys.

4) Saxlama və məlumat

Tərəzi/artefaktların saxlanması: obyekt (versiyalaşdırma, immutability).
Datasets/Fiches: Lakehouse (Delta/Iceberg/Hudi) + offline-fichestor; online fichestor (millisaniyəlik SLA).
Vektor DD (ANN): Faiss/ScaNN/sürətləndiricilər və ya vendor vektor mühərrikləri; charding, HNSW/IVF, replikasiyalar.
Yerli NVMe-cache: soyuq başlanğıc üçün tərəzi/embeddinq qızdırılması.

5) Servinq modelləri

Frameworks

Triton Inference Server (multimodel, multiruntime, dinamik batching).
KServe (K8s-native, autoscaling HPA/KPA, kanari).
LLM tokenizasiya və yüksək performanslı dekodinq üçün vLLM/TGI (paged-attention, KV-cache offloud).
ONNX Runtime/TensorRT-LLM - kompilyasiya və sürətləndirmə üçün.

Optimallaşdırma

Kvantlama: INT8/FP8/INT4 (üzlük/kalibrləmə, AWQ/GPTQ) - onlayn ehtiyatla, keyfiyyəti ölçün.
Qrafın kompilyasiyası: TensorRT, TorchInductor/XLA, fused-kernels.
Batching/mikrobatching: dinamik və statik; для LLM — continuous batching.
KV-cache: sorğular arasında paylaşma, uzun kontekstlərdə CPU/NVMe offload.
Spekulyativ dekodinq: token tələffüzünü sürətləndirmək üçün draft modeli + yoxlayıcı.
Tokenlərin/kontekstin limitləri, erkən dayanma, dayandırma sözləri, sorğu üçün time-budget.

Deploi siyasəti

A/B, kanari, shadow - gecikmə/keyfiyyət/biznes metrik müqayisəsi.
Blue Green - downtime olmadan.
SLO/səhvlər üzrə Rollback.

6) Təlim/fayntuninq

DDP/FSDP/ZeRO: paylanmış yaddaş/qradiyentlər, NVLink/topologiyaların uçotu.
Çek nöqtələri: artımlı/tam, tezlik vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; sabitlik profil.
Dataset-şardinq: vahid iterator, düyünlərə görə replikasiya.
Prioritetlər: Servinqin lehinə kəsilən joblar (preemptible).
Avtonom payplaynlar: data → train → eval → registr → PROD-da gate kriteriyaları ilə təşviq.

7) MLOps və platforma

Model reyestri: versiyalar, imzalar, asılılıqlar, lisenziyalar/tərəzi istifadə hüququ.
CI/CD modelləri: uyğunluq testləri, performans regressiyaları, keyfiyyət geytaları, təhlükəsiz deploy.
Fichestor: offline/online sabitlik (feature parity), TTL və backfill.
Data/Model Lineage: hesabat/eksperiment tarixindən izləmə.
LLM üçün prompps/şablon kataloqu (version).

8) Müşahidə və SLO

Onlayn metriklər:

Gecikmə p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, yaddaş, səhvlər.
LLM-spesifikasiyası: giriş/çıxış tokenləri, cavabın orta uzunluğu, limit uğursuzluqlarının nisbəti, KV cash-hit.
Keyfiyyət: avtomatik regressiya testləri (offline), onlayn telemetriya (məzmun bayraqları, toksikliyi, qızıl nümunələrində emissiya dəqiqliyi).
Biznes SLO: fərdiləşdirmə konvertasiyası, antifrod dəqiqliyi, saxlama.

Alertlər: p99/növbə artımı, tokens/s düşməsi, batch-fill deqradasiyası, VRAM/PCIe-throttle tükənməsi, rate-limit arızalarının artımı.

9) Təhlükəsizlik, uyğunluq və məxfilik

PII/maliyyə məlumatları: hesablama və regionlar üzrə məlumatların seqmentləşdirilməsi, dinc/tranzit şifrələmə, tokenizasiya.
Secrets/Keys: KMS/Secrets Manager; görüntülərdə/kodda saxlanılmasını istisna etmək.
LLM çıxış siyasəti: təhlükəsizlik filtrləri, red-teaming, prompt/cavabların jurnallaşdırılması (anonimləşdirmə ilə).
Lisenziyalar: dataset/çəki lisenziyalarına uyğunluq; «no-redistribute «/kommersiya məhdudiyyətləri.
Tenantların izolyasiyası: namespace-RBAC, şəbəkələr, MIG slaydları, limitlər və kvotalar.

10) Qiymət və finops

Kapasiti planlaşdırma: yükləmə profilləri (RPS, tokenlər/san), turnirlər və kampaniyaların «quyruqları».
Rezerv/Spot: təkrar tapşırıqlar və yoxlama nöqtələri ilə qarışıq hovuzlar (reserved + spot/preemptible).
Avtoskeyl: RPS/queue depth/GPU-util ilə HPA/KPA; qızdırılmış tərəzi ilə «isti başlanğıc».
Model zooparkı: variantların sayını azaltın; tam dublyaj əvəzinə adaptasiyadan (LoRA/PEFT) istifadə edin.
Cache: embedding/bahalı sorğuların nəticələri, LLM üçün KV cache paylaşımı.
Tokenlərin optimallaşdırılması: istehsaldan əvvəl prompların sıxılması, retrieval-augmented generation (RAG), rerank.

11) Multiregion, HA və DR

Active/Active Serving istifadəçiyə daha yaxındır, qlobal marşrutlaşdırma (latency-based).
Bütövlük yoxlaması ilə tərəzi və fich replikasiyası; buraxılışlarda cache qızdırılması.
DR-plan: AZ/region itkisi, ehtiyat hovuza təxliyə, mərkəzləşdirilmiş kataloqdan asılılıq nəzarəti.
Chaos-days: GPU-nod/şəbəkə domen/saxlama uğursuzluq testləri.

12) Konfiqurasiya şablonları (konsepsiyalar)

Triton - dinamik batching:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - kanari:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - başlanğıc (fikirlər):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-spesifikasiyası: RAG və axtarış konturu

Indeksləşdirmə: chancking, embeddingi, ANN-charding 'tenant/locale'.
Rerank: dəqiqliyi artırmaq üçün CPU/GPU slaysında yüngül model.
Cache prompts/kontekstlər: dedup, canonicalization.
Həssas domenlər üçün sitat/məsuliyyət siyasəti (CUS/qaydalar).

14) Giriş çek siyahısı

1. SLO (p95 latency/tokens/s, mövcudluq) və yükləmə profillərini qeyd edin.
2. Klasteri hovuzlara bölün (serving/train/R & D), kvotaları/prioritetləri daxil edin.
3. RDMA/NCCL və topoloji şüurlu planlaşdırma daxil edin.
4. Anbarları konfiqurasiya edin: tərəzi, dataset, fichestor (online/offline), vektor DB.
5. Bir xidmət yığını seçin (Triton/KServe/vLLM), batching/KV-cache/kvantlama əlavə edin.
6. Model reyestrini, CI/CD, Kanari/Shadow Deploy.
7. Müşahidə qoyun: sistem + biznes metrikası, keyfiyyət, izləmə.
8. Təhlükəsizlik siyasəti/PII, lisenziyalar, audit daxil edin.
9. TCO optimallaşdırın: tam klonlar əvəzinə reserved + spot, avtoskeyl, cache, PEFT.
10. HA/DR hazırlayın və game-day keçirin.

15) Antipattern

Hovuzlar və prioritetlər olmadan «Bütün üçün bir böyük GPU».
LLM → p99 partlayış və dəyəri üçün dinamik batching və KV cache yoxdur.
Preemption → SLO hadisələri olmadan bir hovuzda təlim və xidmət.
Sıfır keyfiyyət/təhlükəsizlik telemetri → görünməz deqradasiya və risklər.
Fichestor/model reyestri olmadan mərkəzləşdirilmiş monolit → təkrarlanabilirlik yoxdur.
Tartı/məlumat lisenziyalarına məhəl qoymamaq.

Nəticələr

Uğurlu AI infrastrukturu ağıllı planlaşdırma, yüksək şəbəkə və düzgün saxlama, effektiv xidmət (batching, cache, kvanting, kompilyasiya), yetkin MLOps və ciddi SLO olan GPU hovuzlarıdır. Təhlükəsizlik/PII, multi-region HA/DR və düşünülmüş finops ilə birlikdə platforma sabit p99, $/sorğu nəzarət və anti-frod-dan personalizasiyaya və LLM köməkçilərinə qədər yeni modellərin sürətli tətbiqini təmin edir.

AI infrastrukturu və GPU hovuzları

Qısa xülasə

Planlaşdırıcılar

GPU Partizanlaşdırma

Optimallaşdırma

Deploi siyasəti

Nəticələr

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq