GPU-kodlar we ML-hasaplamalar
Gysgaça gysgaça
GPU-da üstünlikli ML-stek demir, programma üpjünçiligi, meýilnamalaşdyryş, maglumatlar we gözegçilik etmek boýunça çözgütleriň jemidir. Klaster deň derejede gowy:1. modelleri öwretmek (ýokary gaýtadan işlemek, çalt barlag nokatlary, kesilmegine çydamlylyk),
2. inferense hyzmat etmek (ýokary öwrülişikde pes p95-gizlinlik),
3. öňünden aýdyp boljak pul (FinOps, kwotalar, köp tenantlyk),
4. howpsuz bolmak (izolýasiýa, supply chain, terezilere/datasetlere gözegçilik etmek).
Demir we topologiýalar
GPU we ýat
HBM-göwrümi we zolagy LLM/RecSys üçin "çig TFLOPS" -dan has möhümdir.
Köp sanly ownuk haýyşlar üçin - içerki ýat (KV-cache) we ýokary clocks/power limit ileri tutulýar.
Baglanyşyklar
NVLink/NVSwitch - çalt all-reduce üçin düwüniň içinde.
InfiniBand/RoCE - DDP/FSDP (≥ 100-200 Gb/s) üçin içerki alyş-çalyş.
PCIe agaç: NIC we GPU-lary bir NUMA düwüninde oturmaga synanyşyň; "gyzgyn" PCIe-switch bottleneckden gaça duruň.
BIOS/düwün esasy sazlamasy
"Performance", "C-states" (ýa-da has pes), "NUMA awareness", "ASPM off" re modeimleri kritiki PCIe.
Iýmitlenmek: durnukly profiller, agressiw däl power-save - ýogsam p99 "titreýär".
Esasy soft-stek
NVIDIA + CUDA + cuDNN/TensorRT hereketlendirijileri, laýyklyk matrisi boýunça ylalaşylýar.
Konteýnerleriň içindäki GPU üçin NVIDIA konteýner guraly.
NCCL (kollektiwler), UCX (ulag), Apex/xFormers/Flash-Attention - tizlik üçin.
Has çalt NVMe/IB-de GDS (GPUDirect Storage) - maglumatlaryň akymyny çaltlaşdyrýar.
GPU üçin Kubernetes
Esasy komponentler
NVIDIA GPU Operator (sürüjiler, DCGM, device-plugin).
NVIDIA Device Plugin - resurslaryň eksporty 'nvidia. com/gpu`.
MIG (A100/H100) - bir fiziki GPU-ny izolirlenen profillere bölmek (mysal üçin, '1g. 10gb`).
Wagt-slicing - GPU-ny infernesiň ownuk meseleleri üçin wagt boýunça logiki bölmek.
Node Feature Discovery - GPU/topologiýa görnüşleri boýunça bellikler.
Meýilleşdirmek we izolýasiýa
Taints/Tolerations/NodeSelectors okuw/inferens/synaglary bölmek üçin.
NUMA tekizlemek üçin Topology Manager we CPU Manager (static).
Wolcano/Slurm on K8s/Ray - uly joblar üçin nobatlar, ileri tutulýan ugurlar, preemption.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Saýlanan okuw howuzy üçin taint/affinity mysaly:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Okuw: gerimi we durnuklylygy
Paralelizm
DDP - standart data-parallelizm.
FSDP/ZeRO - parametrleri/doň/optimizerleri bölmek, ýady peseldýär.
Tensor/Pipeline Parallel - örän uly LLM üçin; NVLink/IB talap edýär.
Gradient Accumulation - ýadyň iň ýokary derejesi ýokarlanmazdan täsirli batch artdyrýar.
Garyşyk takyklyk we ýady optimizirlemek
AMP (bf16/fp16) + loss scaling; N100/täze üçin - mümkin bolan FP8.
Uzyn yzygiderlilik üçin Activation/Gradient Checkpointing, Flash-Attention.
Paged/Chunked KV-cache inferense taýýarlyk görmek üçin.
Barlag nokatlary we şowsuzlyga çydamlylyk
Çalt NVMe/retenşnli obýekt üçin ýygy-ýygydan inkremental barlag nokatlary.
Idempotent joblary (gaýtalanýan ran-identifikatorlary).
Spot-durnuklylyk: SIGTERM tutýarys, state çalt akdyrýarys; meýilleşdiriji joby nobata gaýtarýar.
NCCL/Tor möhüm üýtgemeleri (mysal)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Inferens: pes gizlinlik, ýokary girdeji
Serwing çarçuwalary
Triton Inference Server - TensorRT/ONNX/TS/PyTorch üçin ýeke-täk serwer.
vLLM/TGI/TensorRT-LLM - LLM-hünärmenler (paged-attention, netijeli KV-cache, continuous batching).
Tizleşdirmek usullary
Kwantizasiýa: INT8/FP8/kwant. -aware (AWQ, GPTQ) - VRAM-yň azalmagy, TPS-iň ösüşi.
Batching/Continuous batching: p95 ösmezden haýyş paketine hyzmat etmek.
HBM-de KV-cache pinning, kontekstleri azaltmak; speculative decoding (draft-model).
GPU-da concurrency: MIG/time-slice-de birnäçe akym/model.
Maksat profilleri (SLO mysaly)
p95 söhbetdeşlik modeliniň jogabynyň gizlinligi ≤ prefiks/token üçin 300 ms;
Maksatly profilde Throughput ≥ 200 tok/s/GPU;
p99 guýruklaryny şeduling bilen dolandyrýarys (QoS synplary we kontekstleriň çäkleri).
Triton deployment (bölek)
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Maglumatlar we paýlamalar
Formatlar: Akym okamak üçin Parquet/Arrow, webdataset (tar-şard).
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Onlaýn surat üçin Feature Store (antifrod/maslahat).
Wersiýa: DVC/LakeFS/MLflow Model Registry; datasetleri, kody we giperparametrleri ýazga alyň.
Synlamak we SLO
DCGM/Prometheus metrikleri (iň az)
`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`
Temperatura/ýygylyk we ECC errors (ösüş üçin alert).
Achieved Occupancy we stall reasons (ýadro gatlagy).
Hyzmat metrikleri
Öndüriji modeller: tokenler/sek, p50/p95/p99, queue depth, ýat şowsuzlygy.
Okuw: ädimler/sekunt, döwür wagty, ähli-reduce netijeliligi, I/O-da% wagt.
SLO paneli: p95, "ýalňyşlyk býudjeti" (≥ 99. 5% "üstünlikli" inferens).
Alerting (pikirler)
`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
Şol ulanyşda TPS-iň N% -e düşmegi - modeliň/kodyň zaýalanmagy.
ESS/temperaturanyň ýokarlanmagy → job göçmegi/demir hadysasy.
Howpsuzlyk we izolýasiýa
Köp tenantlyk: MIG profilleri ýa-da "per-team" nodlary, namespaces/quotas.
IOMMU/PSP, cgroups, artykmaç konteýnerleriň gadagan edilmegi, "CAP _" çäklendirmesi.
MPS (multi-process service) - seresaplylyk bilen: gaýtadan işlemek has ýokary, ýöne bölünişik MIG-den has gowşak.
Supply chain: konteýnerleriň gollary (cosign), artefaktlaryň barlagy, modelleriň düşürilmegine gözegçilik.
Maglumatlar/agramlar: diskdäki şifrlemek, giriş gözegçiligi (ABAC/RBAC), "suw belgileri "/modelleriň heş-sanawlary.
FinOps: bahasy, kwotalary, awtoskeýli
Düwün howuzlary: 'train' (on-demand/ätiýaçlyklar), 'infer' (on-demand + spot garyndysy), 'exp' (spot-heavy).
Spot-durnuklylyk: ýygy-ýygydan barlag nokatlary, çalt täzeden başlamak logikasy, ileri tutulýan Wolcano nobatlary.
Durnukly baza üçin/RI/Savings Plans ätiýaçlyklary; Boş düwünleri awto öçürmek.
Right-sizing modelleri: kwantlamak/" doly "modeliň ýerine LoRA-adapterler; SLA üçin MIG profillerini saýlamak.
Býudjetleriň kontury: GPU-sagat per-team kwotalary, "1k haýyş/belgi üçin bahasy".
YAML şablonlary we artefaktlar
1) MIG profili (konseptual)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Wolcano okuw üçin nobat
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) Nobatyň çuňlugy boýunça awtoskeýl inferens üçin KEDA
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
GPU klasterini işe girizmegiň barlag sanawy
- NVLink/IB topologiýa kartasy; NIC/GPU bir NUMA-da.
- Sürüjiler/CUDA ylalaşyldy, Operator/Device-plugin oturdyldy.
- MIG/wagt-slicing profilleri we nomespace kwotalary.
- DDP/FSDP turbageçirijisi stagingde synagdan geçirildi; çek nokatlary çalt.
- Triton/vLLM с continuous batching; p95 we TPS maksatlary kesgitlenildi.
- DCGM/Prometheus/Grafana + ECC/temperatura/ýat/TPS aladalary.
- Howpsuzlyk syýasaty (PSP, cosign, geýim/agram gözegçiligi).
- FinOps: spot/ri howuzlary, "$/1k bellikleri" hasabaty, awto-atyş idle.
Adaty ýalňyşlyklar
Taints → biri-biriniň GPU/IO-syny "kesmezden" okuwy we inferensiýany bir nodda garyşdyrýarlar.
Çek nokatlary we preemption-logika ýok → spot-da ösüş ýitýär.
DCGM-metrikiň ýoklugy → "kör" gaýtadan işlemek we aşa gyzdyrmak.
Topologiýanyň NUMA/PCIe → NCCL pes zolagy.
Nädogry MIG/time-slice → p99 latentlik we "Out of Memory" profilleri.
TPS/gizlinlik ýerine CPU boýunça HPA → giç skail.
iGaming/fintech aýratynlyklary
Antifrod/skoring: SLA inferensa ≤ 50 ms p95 kritiki ýollarda (tölegler/netijeler); "fallback" ýeňil modelini saklaň.
Teklipler/şahsylaşdyrma: on-policy/off-policy gije okamak, online-features - pes gizlinlik.
Söhbetdeşlik kömekçileri/RAG: mazmuny kesmek, haýyşlary gaýtalamak, guardrails; wektor gözleg indekslerini tertiplemek.
Piki (oýunlar/ýaryşlar): modelleri/kv-cache gyzdyrmak, minReplicas köpeltmek, VIP üçin QoS synplary.
Jemi
Demir (HBM/NVLink/IB), soft matrisa (CUDA/NCCL), meýilleşdiriş (MIG, nobat, taints), maglumatlar (çalt paypline/GDS), syn edilmegi (DCGM/SLO) we bahasy (FinOps/kwotalar) bilelikde işleýär. Muny IaC we klaster syýasatynda kesgitläň - we öňünden aýdyp boljak okuw tizligini, pes p95 gizlinligi we aç-açan GPU sagady ykdysadyýetini alarsyňyz.