GPU-nodları və ML-hesablamalar
Qısa xülasə
GPU-da uğurlu ML yığını dəmir, proqram təminatı, planlaşdırma, məlumat və müşahidə həllərinin məcmusudur. Klaster eyni dərəcədə yaxşı olmalıdır:1. modelləri öyrətmək (yüksək utilizasiya, sürətli yoxlama, fasilə müqaviməti),
2. inferens xidmət (yüksək dönüşümdə aşağı p95 gecikmə),
3. proqnozlaşdırıla bilən pula (FinOps, kvotalar, çox tenantlıq),
4. təhlükəsiz olmaq (izolyasiya, supply chain, tartı/dataset nəzarət).
Dəmir və topologiyalar
GPU və yaddaş
HBM həcmi və zolaq LLM/RecSys üçün «xam TFLOPS» daha vacibdir.
Bir çox kiçik sorğu üçün daxili yaddaş (KV-cache) və yüksək clocks/power limit prioritetidir.
Bağlılıqlar
NVLink/NVSwitch - sürətli all-reduce üçün düyün daxilində.
InfiniBand/RoCE - DDP/FSDP (≥ 100-200 Gb/s) üçün qovşaqlararası mübadilə.
PCIe ağacı: NIC və GPU-ların eyni NUMA qovşağında oturmasına çalışın; «isti» PCIe-switch bottleneck çəkinin.
BIOS/qovşağın əsas sazlanması
Performance rejimləri, C-states off (və ya artırılmış minimum), NUMA awareness, ASPM kritik PCIe off.
Güc: sabit profillər, aqressiv olmayan power-save - əks halda p99 «titrəyir».
Əsas soft yığın
Uyğunluq matrisi ilə razılaşdırılmış NVIDIA + CUDA + cuDNN/TensorRT sürücüləri.
NVIDIA konteyner daxilində GPU üçün konteyner Toolkit.
NCCL (kollektivlər), UCX (nəqliyyat), Apex/xFormers/Flash-Attention - sürət üçün.
İsteğe bağlı GDS (GPUDirect Storage) sürətli NVMe/IB - məlumat axınını sürətləndirir.
GPU üçün Kubernetes
Əsas komponentlər
NVIDIA GPU Operator (sürücülər, DCGM, device-plugin).
NVIDIA Device Plugin - nvidia resurslarının ixracı. com/gpu`.
MIG (A100/H100) - bir fiziki GPU-nun təcrid olunmuş profillərə bölünməsi (məsələn, '1g. 10gb`).
Time-slicing - GPU-nun kiçik inferens vəzifələri üçün məntiqi parçalanması.
Node Feature Discovery - GPU/topologiya növlərinə görə etiketlər.
Planlaşdırma və izolyasiya
Taints/Tolerations/NodeSelectors təlim/inference/təcrübə ayırmaq üçün.
Topology Manager və CPU Manager (static) NUMA hizalaması üçün.
Volcano/Slurm on K8s/Ray - böyük joblar üçün növbələr, preemption.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Xüsusi məşq hovuzu üçün taint/affinity nümunəsi:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Təlim: miqyas və sabitlik
Paralelizm
DDP - standart data-paralellik.
FSDP/ZeRO - parametrlərin/dolu/optimalizatorların şardlanması, yaddaşı azaldır.
Tensor/Pipeline Parallel - çox böyük LLM üçün; NVLink/IB tələb edir.
Gradient Accumulation - artan yaddaş zirvələri olmadan effektiv batch artırır.
Qarışıq dəqiqlik və yaddaş optimizasiyası
AMP (bf16/fp16) + loss scaling; H100/yeni - mümkün olan FP8.
Activation/Gradient Checkpointing, uzun ardıcıllıqlar üçün Flash-Attention.
Inferense hazırlıq üçün Paged/Chunked KV-cache.
Check-point və arıza müqaviməti
Tez-tez artımlı NVMe/Retenship obyekt üçün artımlı çek.
İdempotent joblar (təkrarlanan ran identifikatorları).
Spot-stabillik: SIGTERM tutmaq, tez state sızdırmaq; planlaşdırıcı jobu növbəyə qaytarır.
NCCL/şəbəkənin vacib dəyişənləri (nümunə)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Inference: aşağı gecikmə, yüksək geri dönüş
Servinq çərçivələri
Triton Inference Server - TensorRT/ONNX/TS/PyTorch üçün vahid server.
vLLM/TGI/TensorRT-LLM - LLM-mütəxəssislər (paged-attention, effektiv KV-cache, continuous batching).
Sürətləndirmə üsulları
Quantization: INT8/FP8/kvant. -aware (AWQ, GPTQ) - VRAM azalması, TPS artımı.
Batching/Continuous batching: p95 artım olmadan sorğu paketi xidmət.
HBM-də KV-cache pinning, kontekstlərin azaldılması; speculative decoding (draft model).
GPU-da Concurrency: MIG/time-slice-də bir neçə axın/model.
Hədəf profilləri (SLO nümunəsi)
p95 chat modelinin cavab gecikməsi ≤ prefiks/token üçün 300 ms;
Throughput ≥ hədəf profildə 200 cərəyan/s/GPU;
p99 quyruqları şedulinqlə idarə olunur (QoS sinifləri və kontekstlərin limitləri).
Triton deployment
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Məlumatlar və paylaynlar
Formatlar: Parquet/Arrow, webdataset (tar-şard) axın oxu üçün.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Online fich (antifrod/tövsiyələr) üçün Feature Store.
Version: DVC/LakeFS/MLflow Model Registry; datasetlər, kod və hiper parametrləri qeyd edin.
Müşahidə və SLO
DCGM/Prometheus metrika (minimum)
`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`
Temperatur/tezlik və ECC errors (artım üçün alert).
Achieved Occupancy və stall reasons (dar nüvə təbəqəsi).
Xidmət metrikası
Generativ modellər: tokenlər/san, p50/p95/p99, queue depth, yaddaş çatışmazlığı.
Təlim: addımlar/san, epoxa vaxtı, bütün-reduce səmərəliliyi, I/O-da% vaxt.
SLO paneli: p95 uyğunluğu, «səhv büdcəsi» (≥ 99. 5% «uğurlu» inferens).
Alertinq (fikirlər)
`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
TPS-in eyni utilizasiyada N% -ə düşməsi model/kodun deqradasiyasıdır.
ACS/temperatur artımı → job miqrasiyası/dəmir hadisəsi.
Təhlükəsizlik və izolyasiya
Multi-tenant: MIG profilləri və ya «per-team» nodları, namespaces/quotas.
IOMMU/PSP, cgroups, imtiyazlı konteynerlərin qadağan edilməsi, «CAP _» məhdudiyyəti.
MPS (multi-process service) - səliqəli: daha yüksək təkrar emal, lakin ayrılma MIG daha zəifdir.
Supply chain: konteyner imzaları (cosign), artefaktların yoxlanılması, modellərin boşaldılmasına nəzarət.
Data/çəki: diskdə şifrələmə, giriş nəzarəti (ABAC/RBAC), «su işarələri »/hash modelləri reyestrləri.
FinOps: qiymət, kvota, avtoskeyl
Düyün hovuzları: 'train' (on-demand/ehtiyat), 'infer' (on-demand + spot qarışığı), 'exp' (spot-heavy).
Spot-stabillik: tez-tez kontrol nöqtələri, sürətli yenidən başlama məntiqi, prioritetlərlə Volcano növbələri.
Sabit bazaya/RI/Savings Plans ehtiyatları; boş düyünlərin avtomatik söndürülməsi.
Right-sizing modelləri: kvantlama/« tam »model əvəzinə LoRA-adapterlər; SLA altında MIG profilləri seçin.
Büdcə konturu: GPU-saat per-team kvotaları, «1k sorğu/tokenlər üçün qiymət».
YAML şablonları və artefaktlar
1) MIG profili (konseptual)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Volcano təlim üçün növbə
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) KEDA avtoskeyl inferens dərinlik növbə
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
GPU klasterinin başlanğıc siyahısı
- NVLink/IB topologiya xəritəsi; Bir NUMA-da NIC/GPU.
- Sürücülər/CUDA razılaşdırılmış, Operator/Device-plugin quraşdırılmışdır.
- MIG/time-slicing profilləri və neyspace kvotaları.
- DDP/FSDP pipeline steycingdə sınaqdan keçirilir; check-point sürətli.
- Triton/vLLM с continuous batching; p95 və TPS hədəfləri təyin edilmişdir.
- DCGM/Prometheus/Grafana + ECC/temperatur/yaddaş/TPS.
- Təhlükəsizlik siyasəti (PSP, cosign, kiloları/nəzarət).
- FinOps: spot/ri pulları, «$/1k token» hesabatı, idle.
Tipik səhvlər
Taints → bir-birinə GPU/IO olmadan bir node üzərində təlim və inference qarışdırın.
Heç bir yoxlama və preemption-məntiq → spot tərəqqi itkisi.
DCGM metrik yoxdur → «kor» təkrar emal və həddindən artıq istiləşmə.
NUMA/PCIe topologiyası → aşağı zolaq NCCL.
Səhv MIG/time-slice → p99 latentlik və «Out of Memory» profilləri.
TPS/gizli əvəzinə CPU HPA → son Skail.
iGaming/Fintech xüsusiyyətləri
Antifrod/skoring: SLA infenersa ≤ 50 ms p95 kritik yollarda (ödənişlər/nəticələr); yüngül model saxlamaq «fallback».
Tövsiyələr/personalizasiya: on-policy/off-policy gecə təlim, online-features - aşağı gizli.
Chat köməkçiləri/RAG: məzmun önbelləyi, sorğuların deuplikasiyası, guardrails; vektor axtarış indekslərinin şardlanması.
Zirvələr (matçlar/turnirlər) :/kv-cache modellərinin əvvəlcədən qızdırılması, minReplicas artımı, VIP üçün QoS sinifləri.
Yekun
GPU hesablama yığını dəmir (HBM/NVLink/IB), soft matrisi (CUDA/NCCL), planlaşdırma (MIG, növbə, taints), data (sürətli paypline/GDS), müşahidə (DCGM/SLO) və dəyəri (FinOps/kvotalar) uyğun işləyir. Bunu IaC və klaster siyasətinə bağlayın - və proqnozlaşdırıla bilən öyrənmə sürəti, aşağı p95 gecikmə ilə sabit inferens və şəffaf GPU saat iqtisadiyyatı əldə edəcəksiniz.