GPU-node va ML-hisoblash
Qisqacha xulosa
GPUda muvaffaqiyatli ML-stek - bu temir, dasturiy ta’minot, rejalashtirish, ma’lumotlar va kuzatish bo’yicha echimlar yig’indisidir. Klaster bir xil darajada yaxshi bo’lishi kerak:1. modellarni o’rgatish (yuqori utilizatsiya, tezkor chekpoyntlar, uzilishlarga chidamlilik),
2. inferensga xizmat ko’rsatish (yuqori konversiyada past p95-latentlik),
3. oldindan aytib bo’ladigan pul (FinOps, kvotalar, ko’p tenantlik),
4. xavfsiz bo’lishi (izolyatsiya, supply chain, tarozi/sanasetlarni nazorat qilish).
Temir va topologiyalar
GPU va xotira
HBM hajmi va chiziq LLM/RecSys uchun «xom TFLOPS» dan muhimroqdir.
Ko’plab kichik so’rovlar uchun ichki xotira ustuvorligi (KV-cache) va yuqori clocks/power limit.
Bogʻlanishlar
NVLink/NVSwitch - tezkor all-reduce uchun tugun ichida.
InfiniBand/RoCE - DDP/FSDP uchun tarmoqlararo almashinuv (≥ 100-200 Gb/s).
PCIe-daraxt: NIC va GPUlarni bitta NUMA tugunida o’tirishga harakat qiling; «issiq» PCIe-switch bottleneckdan qoching.
BIOS/tugunning asosiy tyuningi
Performance rejimlari, C-states oʻchirish (yoki yuqori minimal), NUMA awareness, ASPM off kritik PCIe.
Quvvat: barqaror profillar, tajovuzkor bo’lmagan power-save - aks holda p99 titraydi.
Bazaviy soft-stek
Muvofiqlik matritsasi boʻyicha kelishilgan NVIDIA + CUDA + cuDNN/TensorRT drayverlari.
konteynerlar ichidagi GPU uchun NVIDIA Container Toolkit.
NCCL (kollektivlar), UCX (transport), Apex/xFormers/Flash-Attention - tezlik uchun.
Tezkor NVMe/IBdagi GDS (GPUDirect Storage) maʼlumotlar oqimini tezlashtiradi.
GPU uchun Kubernetes
Asosiy komponentlar
NVIDIA GPU Operator (drayverlar, DCGM, device-plugin).
NVIDIA Device Plugin - nvidia resurslarini eksport qilish. com/gpu`.
MIG (A100/H100) - bitta fizik GPUni izolyatsiya qilingan profillarga bo’lish (masalan,’1g. 10gb`).
Time-slicing - GPUni kichik inferens vazifalari uchun vaqt bo’yicha mantiqiy maydalash.
Node Feature Discovery - GPU/topologiya turlari bo’yicha belgilar.
Rejalashtirish va izolyatsiya
Taints/Tolerations/NodeSelectors trening/inferens/eksperimentlarni ajratish uchun.
NUMA tekislash uchun Topology Manager va CPU Manager (static).
Volcano/Slurm on K8s/Ray - navbatlar, ustuvorliklar, katta joblar uchun preemption.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Tanlangan mashq puli uchun taint/affinity namunasi:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Taʼlim: masshtab va barqarorlik
Parallelizm
DDP - standart data-parallelizm.
FSDP/ZeRO - parametrlarni/do’llarni/optimalizatorlarni ajratish, xotirani kamaytiradi.
Tensor/Pipeline Parallel - juda yirik LLM uchun; NVLink/IB talab qiladi.
Gradient Accumulation - xotiraning eng yuqori cho’qqilarini oshirmasdan samarali batchni oshiradi.
Aralash aniqlik va xotirani optimallashtirish
AMP (bf16/fp16) + loss scaling; H100/yangi uchun - mumkin bo’lgan FP8.
Activation/Gradient Checkpointing, Flash-Attention.
Inferensga tayyorgarlik uchun Paged/Chunked KV-cache.
Chekpoyuntlar va ishdan chiqish chidamliligi
Tezkor NVMe/retenshnli obyektga tez-tez inkremental chekpoyntlar.
Idempotent joblar (takrorlanadigan ran-identifikatorlar).
Spot-barqarorlik: SIGTERMni ushlaymiz, state tezda quyamiz; rejalashtiruvchi jobni navbatga qaytaradi.
Muhim oʻzgaruvchilar NCCL/tarmoq (misol)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Inferens: past latentlik, yuqori qaytarish
Serving-freymvorkalar
Triton Inference Server - TensorRT/ONNX/TS/PyTorch uchun yagona server.
vLLM/TGI/TensorRT-LLM - LLM-mutaxassislar (paged-attention, samarali KV-cache, continuous batching).
Tezlashtirish usullari
Quantization: INT8/FP8/kvant. -aware (AWQ, GPTQ) - VRAM kamayishi, TPS o’sishi.
Batching/Continuous batching: so’rovlar qutisiga p95 bo’lmasdan xizmat ko’rsatish.
HBMda KV-cache pinning, kontekstlarni qisqartirish; speculative decoding (draft-model).
GPU uchun concurrency: MIG/time-slice uchun bir nechta oqim/modellar.
Maqsad profillari (SLO misoli)
p95 chat-model javobining latentligi ≤ prefiks/tokenga 300 ms;
Throughput ≥ maqsadli profildagi 200 tok/s/GPU;
p99 qoldiqlarini sheduling bilan nazorat qilamiz (QoS sinflari va kontekstlar limitlari).
Triton deployment (parcha)
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Ma’lumotlar va payplaynlar
Formatlar: Parquet/Arrow, webdataset (tar-shard).
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Feature Store uchun onlayn fich (antifrod/tavsiyalar).
Version: DVC/LakeFS/MLflow Model Registry; datasetlar, kod va giperparametrlarni aniqlang.
Kuzatish darajasi va SLO
DCGM/Prometheus metrikasi (minimal)
`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`
Harorat/chastota va ECC errors (o’sish uchun alert).
Achieved Occupancy va stall reasons (yadroning tor qatlami).
Servis metrikasi
Generativ modellar: tokenlar/sek, p50/p95/p99, queue depth, xotira buzilishi.
Trening: qadamlar/sek, davr vaqti, all-reduce samaradorligi, I/Oda% vaqt.
SLO paneli: p95 komplayens, «xato byudjeti» (99 ≥. 5% «muvaffaqiyatli» inferens).
Alerting (g’oyalar)
`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
Xuddi shu utilizatsiyada TPS ning N% ga tushishi - model/kodning degradatsiyasi.
ESS/haroratning o’sishi → job migratsiyasi/temir hodisasi.
Xavfsizlik va izolyatsiya
Multi-tenantlik: MIG-profillar yoki «per-team» nodlari, namespaces/quotas.
IOMMU/PSP, cgroups, imtiyozli konteynerlarni taqiqlash, «CAP _» cheklovi.
MPS (multi-process service) - ehtiyotkorlik bilan: yuqori utilizatsiya, lekin bo’linish MIGdan kuchsiz.
Supply chain: konteyner imzolari (cosign), artefaktlarni tekshirish, modellarni tushirishni nazorat qilish.
Ma’lumotlar/og’irlik: diskda shifrlash, kirishni nazorat qilish (ABAC/RBAC), «suv belgilari »/modellarning xesh-reyestrlari.
FinOps: qiymat, kvotalar, avtoskeyl
Uzel pullari:’train’(on-demand/rezervlar),’infer’(on-demand + spot mix),’exp’(spot-heavy).
Spot-barqarorlik: tez-tez chekpoyntlar, tezkor qayta ishga tushirish mantig’i, ustuvorlik bilan Volcano navbatlari.
Barqaror bazaga/RI/Savings Plans zaxiralari; bo’sh uzellarni avto-o’chirish.
Right-sizing modellari: kvantlash/« to’liq »model o’rniga LoRA-adapterlar; SLA uchun MIG profillarini tanlash.
Budjetlar konturi: GPU-soat per-team kvotalari, «1 k so’rov/tokenlar narxi».
YAML namunalari va artefaktlar
1) MIG profili (konseptual)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Volcano trening uchun navbat
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) KEDA avtoskeyl inferens uchun navbatning chuqurligi bo’yicha
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
GPU klasterini ishga tushirish chek varaqasi
- NVLink/IB topologiya xaritasi; NIC/GPU bitta NUMAda.
- Drayverlar/CUDA kelishilgan, Operator/Device-plugin oʻrnatilgan.
- MIG/time-slicing profillari va neyspeys kvotalari.
- DDP/FSDP pipeline steyjingda o’tkazilgan; chek pointlari tezkor.
- Triton/vLLM с continuous batching; p95 va TPS maqsadlari belgilangan.
- DCGM/Prometheus/Grafana + ECC alertlari/harorat/xotira/TPS.
- Xavfsizlik siyosati (PSP, cosign, qadoqlash/tortish nazorati).
- FinOps: spot/ri pullari, $/1k tokenlar hisoboti, idle avto-shotdaun.
Tipik xatolar
Taints → bir-birlarini GPU/IOsiz o’rganish va inferens aralashtiriladi.
Check point va preemption mantig’i yo’q → spot’da taraqqiyot yo’qolmoqda.
DCGM-metrikning yo’qligi → «ko’r-ko’rona» utilizatsiya qilish va haddan tashqari qizdirish.
Topologiyaning NUMA/PCIe ignori → NCCL ning past chizig’i.
Notoʻgʻri MIG/time-slice → p99 latentlik va «Out of Memory» profillari.
TPS/yashirin o’rniga CPU bo’yicha HPA → kech skeyl.
iGaming/fintech xususiyatlari
Antifrod/skoring: SLA inferensa ≤ 50 ms p95 kritik yo’llarda (to’lovlar/xulosalar); «fallback» ning engil modelini saqlang.
Tavsiyalar/personallashtirish: on-policy/off-policy tunda o’qitish, online-features - past latentlik.
Chat yordamchilari/RAG: kontent keshi, so’rovlarni deeplikatsiya qilish, guardrails; vektor qidiruv indekslarini shardlash.
Piki (o’yinlar/turnirlar): modellarni oldindan isitish/kv-cache, ko’paytirish minReplicas, QoS-klasslar uchun VIP.
Jami
Temir (HBM/NVLink/IB), soft matritsasi (CUDA/NCCL), rejalashtirish (MIG, navbat, taints), ma’lumotlar (tezkor payplayn/GDS), kuzatish darajasi (DCGM/SLO) va qiymati (FinOps/kvotalar) kelishilgan holda ishlaydi. Buni IaC va klaster siyosatiga biriktiring - va siz oldindan aytib bo’ladigan o’quv tezligini, past latentlikka ega barqaror inferens va shaffof GPU-soat iqtisodiyotini olasiz.