GPU-nodları və ML-hesablamalar

Qısa xülasə

GPU-da uğurlu ML yığını dəmir, proqram təminatı, planlaşdırma, məlumat və müşahidə həllərinin məcmusudur. Klaster eyni dərəcədə yaxşı olmalıdır:

1. modelləri öyrətmək (yüksək utilizasiya, sürətli yoxlama, fasilə müqaviməti),

2. inferens xidmət (yüksək dönüşümdə aşağı p95 gecikmə),

3. proqnozlaşdırıla bilən pula (FinOps, kvotalar, çox tenantlıq),

4. təhlükəsiz olmaq (izolyasiya, supply chain, tartı/dataset nəzarət).

Dəmir və topologiyalar

GPU və yaddaş

HBM həcmi və zolaq LLM/RecSys üçün «xam TFLOPS» daha vacibdir.
Bir çox kiçik sorğu üçün daxili yaddaş (KV-cache) və yüksək clocks/power limit prioritetidir.

Bağlılıqlar

NVLink/NVSwitch - sürətli all-reduce üçün düyün daxilində.
InfiniBand/RoCE - DDP/FSDP (≥ 100-200 Gb/s) üçün qovşaqlararası mübadilə.
PCIe ağacı: NIC və GPU-ların eyni NUMA qovşağında oturmasına çalışın; «isti» PCIe-switch bottleneck çəkinin.

BIOS/qovşağın əsas sazlanması

Performance rejimləri, C-states off (və ya artırılmış minimum), NUMA awareness, ASPM kritik PCIe off.
Güc: sabit profillər, aqressiv olmayan power-save - əks halda p99 «titrəyir».

Əsas soft yığın

Uyğunluq matrisi ilə razılaşdırılmış NVIDIA + CUDA + cuDNN/TensorRT sürücüləri.
NVIDIA konteyner daxilində GPU üçün konteyner Toolkit.
NCCL (kollektivlər), UCX (nəqliyyat), Apex/xFormers/Flash-Attention - sürət üçün.
İsteğe bağlı GDS (GPUDirect Storage) sürətli NVMe/IB - məlumat axınını sürətləndirir.

GPU üçün Kubernetes

Əsas komponentlər

NVIDIA GPU Operator (sürücülər, DCGM, device-plugin).
NVIDIA Device Plugin - nvidia resurslarının ixracı. com/gpu`.
MIG (A100/H100) - bir fiziki GPU-nun təcrid olunmuş profillərə bölünməsi (məsələn, '1g. 10gb`).
Time-slicing - GPU-nun kiçik inferens vəzifələri üçün məntiqi parçalanması.
Node Feature Discovery - GPU/topologiya növlərinə görə etiketlər.

Planlaşdırma və izolyasiya

Taints/Tolerations/NodeSelectors təlim/inference/təcrübə ayırmaq üçün.
Topology Manager və CPU Manager (static) NUMA hizalaması üçün.
Volcano/Slurm on K8s/Ray - böyük joblar üçün növbələr, preemption.

Pod GPU sorğu nümunəsi:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Xüsusi məşq hovuzu üçün taint/affinity nümunəsi:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Təlim: miqyas və sabitlik

Paralelizm

DDP - standart data-paralellik.
FSDP/ZeRO - parametrlərin/dolu/optimalizatorların şardlanması, yaddaşı azaldır.
Tensor/Pipeline Parallel - çox böyük LLM üçün; NVLink/IB tələb edir.
Gradient Accumulation - artan yaddaş zirvələri olmadan effektiv batch artırır.

Qarışıq dəqiqlik və yaddaş optimizasiyası

AMP (bf16/fp16) + loss scaling; H100/yeni - mümkün olan FP8.
Activation/Gradient Checkpointing, uzun ardıcıllıqlar üçün Flash-Attention.
Inferense hazırlıq üçün Paged/Chunked KV-cache.

Check-point və arıza müqaviməti

Tez-tez artımlı NVMe/Retenship obyekt üçün artımlı çek.
İdempotent joblar (təkrarlanan ran identifikatorları).
Spot-stabillik: SIGTERM tutmaq, tez state sızdırmaq; planlaşdırıcı jobu növbəyə qaytarır.

NCCL/şəbəkənin vacib dəyişənləri (nümunə)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Inference: aşağı gecikmə, yüksək geri dönüş

Servinq çərçivələri

Triton Inference Server - TensorRT/ONNX/TS/PyTorch üçün vahid server.
vLLM/TGI/TensorRT-LLM - LLM-mütəxəssislər (paged-attention, effektiv KV-cache, continuous batching).

Sürətləndirmə üsulları

Quantization: INT8/FP8/kvant. -aware (AWQ, GPTQ) - VRAM azalması, TPS artımı.
Batching/Continuous batching: p95 artım olmadan sorğu paketi xidmət.
HBM-də KV-cache pinning, kontekstlərin azaldılması; speculative decoding (draft model).
GPU-da Concurrency: MIG/time-slice-də bir neçə axın/model.

Hədəf profilləri (SLO nümunəsi)

p95 chat modelinin cavab gecikməsi ≤ prefiks/token üçün 300 ms;

Throughput ≥ hədəf profildə 200 cərəyan/s/GPU;

p99 quyruqları şedulinqlə idarə olunur (QoS sinifləri və kontekstlərin limitləri).

Triton deployment

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Məlumatlar və paylaynlar

Formatlar: Parquet/Arrow, webdataset (tar-şard) axın oxu üçün.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Online fich (antifrod/tövsiyələr) üçün Feature Store.
Version: DVC/LakeFS/MLflow Model Registry; datasetlər, kod və hiper parametrləri qeyd edin.

Müşahidə və SLO

DCGM/Prometheus metrika (minimum)

`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`

Temperatur/tezlik və ECC errors (artım üçün alert).
Achieved Occupancy və stall reasons (dar nüvə təbəqəsi).

Xidmət metrikası

Generativ modellər: tokenlər/san, p50/p95/p99, queue depth, yaddaş çatışmazlığı.
Təlim: addımlar/san, epoxa vaxtı, bütün-reduce səmərəliliyi, I/O-da% vaxt.
SLO paneli: p95 uyğunluğu, «səhv büdcəsi» (≥ 99. 5% «uğurlu» inferens).

Alertinq (fikirlər)

`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
TPS-in eyni utilizasiyada N% -ə düşməsi model/kodun deqradasiyasıdır.
ACS/temperatur artımı → job miqrasiyası/dəmir hadisəsi.

Təhlükəsizlik və izolyasiya

Multi-tenant: MIG profilləri və ya «per-team» nodları, namespaces/quotas.
IOMMU/PSP, cgroups, imtiyazlı konteynerlərin qadağan edilməsi, «CAP _» məhdudiyyəti.
MPS (multi-process service) - səliqəli: daha yüksək təkrar emal, lakin ayrılma MIG daha zəifdir.
Supply chain: konteyner imzaları (cosign), artefaktların yoxlanılması, modellərin boşaldılmasına nəzarət.
Data/çəki: diskdə şifrələmə, giriş nəzarəti (ABAC/RBAC), «su işarələri »/hash modelləri reyestrləri.

FinOps: qiymət, kvota, avtoskeyl

Düyün hovuzları: 'train' (on-demand/ehtiyat), 'infer' (on-demand + spot qarışığı), 'exp' (spot-heavy).
Spot-stabillik: tez-tez kontrol nöqtələri, sürətli yenidən başlama məntiqi, prioritetlərlə Volcano növbələri.
Sabit bazaya/RI/Savings Plans ehtiyatları; boş düyünlərin avtomatik söndürülməsi.
Right-sizing modelləri: kvantlama/« tam »model əvəzinə LoRA-adapterlər; SLA altında MIG profilləri seçin.
Büdcə konturu: GPU-saat per-team kvotaları, «1k sorğu/tokenlər üçün qiymət».

YAML şablonları və artefaktlar

1) MIG profili (konseptual)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Volcano təlim üçün növbə

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) KEDA avtoskeyl inferens dərinlik növbə

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU klasterinin başlanğıc siyahısı

NVLink/IB topologiya xəritəsi; Bir NUMA-da NIC/GPU.
Sürücülər/CUDA razılaşdırılmış, Operator/Device-plugin quraşdırılmışdır.
MIG/time-slicing profilləri və neyspace kvotaları.
DDP/FSDP pipeline steycingdə sınaqdan keçirilir; check-point sürətli.
Triton/vLLM с continuous batching; p95 və TPS hədəfləri təyin edilmişdir.
DCGM/Prometheus/Grafana + ECC/temperatur/yaddaş/TPS.
Təhlükəsizlik siyasəti (PSP, cosign, kiloları/nəzarət).
FinOps: spot/ri pulları, «$/1k token» hesabatı, idle.

Tipik səhvlər

Taints → bir-birinə GPU/IO olmadan bir node üzərində təlim və inference qarışdırın.
Heç bir yoxlama və preemption-məntiq → spot tərəqqi itkisi.
DCGM metrik yoxdur → «kor» təkrar emal və həddindən artıq istiləşmə.
NUMA/PCIe topologiyası → aşağı zolaq NCCL.
Səhv MIG/time-slice → p99 latentlik və «Out of Memory» profilləri.
TPS/gizli əvəzinə CPU HPA → son Skail.

iGaming/Fintech xüsusiyyətləri

Antifrod/skoring: SLA infenersa ≤ 50 ms p95 kritik yollarda (ödənişlər/nəticələr); yüngül model saxlamaq «fallback».
Tövsiyələr/personalizasiya: on-policy/off-policy gecə təlim, online-features - aşağı gizli.
Chat köməkçiləri/RAG: məzmun önbelləyi, sorğuların deuplikasiyası, guardrails; vektor axtarış indekslərinin şardlanması.
Zirvələr (matçlar/turnirlər) :/kv-cache modellərinin əvvəlcədən qızdırılması, minReplicas artımı, VIP üçün QoS sinifləri.

Yekun

GPU hesablama yığını dəmir (HBM/NVLink/IB), soft matrisi (CUDA/NCCL), planlaşdırma (MIG, növbə, taints), data (sürətli paypline/GDS), müşahidə (DCGM/SLO) və dəyəri (FinOps/kvotalar) uyğun işləyir. Bunu IaC və klaster siyasətinə bağlayın - və proqnozlaşdırıla bilən öyrənmə sürəti, aşağı p95 gecikmə ilə sabit inferens və şəffaf GPU saat iqtisadiyyatı əldə edəcəksiniz.