GPU-kodlar we ML-hasaplamalar

Gysgaça gysgaça

GPU-da üstünlikli ML-stek demir, programma üpjünçiligi, meýilnamalaşdyryş, maglumatlar we gözegçilik etmek boýunça çözgütleriň jemidir. Klaster deň derejede gowy:

1. modelleri öwretmek (ýokary gaýtadan işlemek, çalt barlag nokatlary, kesilmegine çydamlylyk),

2. inferense hyzmat etmek (ýokary öwrülişikde pes p95-gizlinlik),

3. öňünden aýdyp boljak pul (FinOps, kwotalar, köp tenantlyk),

4. howpsuz bolmak (izolýasiýa, supply chain, terezilere/datasetlere gözegçilik etmek).

Demir we topologiýalar

GPU we ýat

HBM-göwrümi we zolagy LLM/RecSys üçin "çig TFLOPS" -dan has möhümdir.
Köp sanly ownuk haýyşlar üçin - içerki ýat (KV-cache) we ýokary clocks/power limit ileri tutulýar.

Baglanyşyklar

NVLink/NVSwitch - çalt all-reduce üçin düwüniň içinde.
InfiniBand/RoCE - DDP/FSDP (≥ 100-200 Gb/s) üçin içerki alyş-çalyş.
PCIe agaç: NIC we GPU-lary bir NUMA düwüninde oturmaga synanyşyň; "gyzgyn" PCIe-switch bottleneckden gaça duruň.

BIOS/düwün esasy sazlamasy

"Performance", "C-states" (ýa-da has pes), "NUMA awareness", "ASPM off" re modeimleri kritiki PCIe.
Iýmitlenmek: durnukly profiller, agressiw däl power-save - ýogsam p99 "titreýär".

Esasy soft-stek

NVIDIA + CUDA + cuDNN/TensorRT hereketlendirijileri, laýyklyk matrisi boýunça ylalaşylýar.
Konteýnerleriň içindäki GPU üçin NVIDIA konteýner guraly.
NCCL (kollektiwler), UCX (ulag), Apex/xFormers/Flash-Attention - tizlik üçin.
Has çalt NVMe/IB-de GDS (GPUDirect Storage) - maglumatlaryň akymyny çaltlaşdyrýar.

GPU üçin Kubernetes

Esasy komponentler

NVIDIA GPU Operator (sürüjiler, DCGM, device-plugin).
NVIDIA Device Plugin - resurslaryň eksporty 'nvidia. com/gpu`.
MIG (A100/H100) - bir fiziki GPU-ny izolirlenen profillere bölmek (mysal üçin, '1g. 10gb`).
Wagt-slicing - GPU-ny infernesiň ownuk meseleleri üçin wagt boýunça logiki bölmek.
Node Feature Discovery - GPU/topologiýa görnüşleri boýunça bellikler.

Meýilleşdirmek we izolýasiýa

Taints/Tolerations/NodeSelectors okuw/inferens/synaglary bölmek üçin.
NUMA tekizlemek üçin Topology Manager we CPU Manager (static).
Wolcano/Slurm on K8s/Ray - uly joblar üçin nobatlar, ileri tutulýan ugurlar, preemption.

Pod üçin GPU soragynyň mysaly:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Saýlanan okuw howuzy üçin taint/affinity mysaly:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Okuw: gerimi we durnuklylygy

Paralelizm

DDP - standart data-parallelizm.
FSDP/ZeRO - parametrleri/doň/optimizerleri bölmek, ýady peseldýär.
Tensor/Pipeline Parallel - örän uly LLM üçin; NVLink/IB talap edýär.
Gradient Accumulation - ýadyň iň ýokary derejesi ýokarlanmazdan täsirli batch artdyrýar.

Garyşyk takyklyk we ýady optimizirlemek

AMP (bf16/fp16) + loss scaling; N100/täze üçin - mümkin bolan FP8.
Uzyn yzygiderlilik üçin Activation/Gradient Checkpointing, Flash-Attention.
Paged/Chunked KV-cache inferense taýýarlyk görmek üçin.

Barlag nokatlary we şowsuzlyga çydamlylyk

Çalt NVMe/retenşnli obýekt üçin ýygy-ýygydan inkremental barlag nokatlary.
Idempotent joblary (gaýtalanýan ran-identifikatorlary).
Spot-durnuklylyk: SIGTERM tutýarys, state çalt akdyrýarys; meýilleşdiriji joby nobata gaýtarýar.

NCCL/Tor möhüm üýtgemeleri (mysal)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Inferens: pes gizlinlik, ýokary girdeji

Serwing çarçuwalary

Triton Inference Server - TensorRT/ONNX/TS/PyTorch üçin ýeke-täk serwer.
vLLM/TGI/TensorRT-LLM - LLM-hünärmenler (paged-attention, netijeli KV-cache, continuous batching).

Tizleşdirmek usullary

Kwantizasiýa: INT8/FP8/kwant. -aware (AWQ, GPTQ) - VRAM-yň azalmagy, TPS-iň ösüşi.
Batching/Continuous batching: p95 ösmezden haýyş paketine hyzmat etmek.
HBM-de KV-cache pinning, kontekstleri azaltmak; speculative decoding (draft-model).
GPU-da concurrency: MIG/time-slice-de birnäçe akym/model.

Maksat profilleri (SLO mysaly)

p95 söhbetdeşlik modeliniň jogabynyň gizlinligi ≤ prefiks/token üçin 300 ms;

Maksatly profilde Throughput ≥ 200 tok/s/GPU;

p99 guýruklaryny şeduling bilen dolandyrýarys (QoS synplary we kontekstleriň çäkleri).

Triton deployment (bölek)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Maglumatlar we paýlamalar

Formatlar: Akym okamak üçin Parquet/Arrow, webdataset (tar-şard).
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Onlaýn surat üçin Feature Store (antifrod/maslahat).
Wersiýa: DVC/LakeFS/MLflow Model Registry; datasetleri, kody we giperparametrleri ýazga alyň.

Synlamak we SLO

DCGM/Prometheus metrikleri (iň az)

`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`

Temperatura/ýygylyk we ECC errors (ösüş üçin alert).
Achieved Occupancy we stall reasons (ýadro gatlagy).

Hyzmat metrikleri

Öndüriji modeller: tokenler/sek, p50/p95/p99, queue depth, ýat şowsuzlygy.
Okuw: ädimler/sekunt, döwür wagty, ähli-reduce netijeliligi, I/O-da% wagt.
SLO paneli: p95, "ýalňyşlyk býudjeti" (≥ 99. 5% "üstünlikli" inferens).

Alerting (pikirler)

`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
Şol ulanyşda TPS-iň N% -e düşmegi - modeliň/kodyň zaýalanmagy.
ESS/temperaturanyň ýokarlanmagy → job göçmegi/demir hadysasy.

Howpsuzlyk we izolýasiýa

Köp tenantlyk: MIG profilleri ýa-da "per-team" nodlary, namespaces/quotas.
IOMMU/PSP, cgroups, artykmaç konteýnerleriň gadagan edilmegi, "CAP _" çäklendirmesi.
MPS (multi-process service) - seresaplylyk bilen: gaýtadan işlemek has ýokary, ýöne bölünişik MIG-den has gowşak.
Supply chain: konteýnerleriň gollary (cosign), artefaktlaryň barlagy, modelleriň düşürilmegine gözegçilik.
Maglumatlar/agramlar: diskdäki şifrlemek, giriş gözegçiligi (ABAC/RBAC), "suw belgileri "/modelleriň heş-sanawlary.

FinOps: bahasy, kwotalary, awtoskeýli

Düwün howuzlary: 'train' (on-demand/ätiýaçlyklar), 'infer' (on-demand + spot garyndysy), 'exp' (spot-heavy).
Spot-durnuklylyk: ýygy-ýygydan barlag nokatlary, çalt täzeden başlamak logikasy, ileri tutulýan Wolcano nobatlary.
Durnukly baza üçin/RI/Savings Plans ätiýaçlyklary; Boş düwünleri awto öçürmek.
Right-sizing modelleri: kwantlamak/" doly "modeliň ýerine LoRA-adapterler; SLA üçin MIG profillerini saýlamak.
Býudjetleriň kontury: GPU-sagat per-team kwotalary, "1k haýyş/belgi üçin bahasy".

YAML şablonlary we artefaktlar

1) MIG profili (konseptual)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Wolcano okuw üçin nobat

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) Nobatyň çuňlugy boýunça awtoskeýl inferens üçin KEDA

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU klasterini işe girizmegiň barlag sanawy

NVLink/IB topologiýa kartasy; NIC/GPU bir NUMA-da.
Sürüjiler/CUDA ylalaşyldy, Operator/Device-plugin oturdyldy.
MIG/wagt-slicing profilleri we nomespace kwotalary.
DDP/FSDP turbageçirijisi stagingde synagdan geçirildi; çek nokatlary çalt.
Triton/vLLM с continuous batching; p95 we TPS maksatlary kesgitlenildi.
DCGM/Prometheus/Grafana + ECC/temperatura/ýat/TPS aladalary.
Howpsuzlyk syýasaty (PSP, cosign, geýim/agram gözegçiligi).
FinOps: spot/ri howuzlary, "$/1k bellikleri" hasabaty, awto-atyş idle.

Adaty ýalňyşlyklar

Taints → biri-biriniň GPU/IO-syny "kesmezden" okuwy we inferensiýany bir nodda garyşdyrýarlar.
Çek nokatlary we preemption-logika ýok → spot-da ösüş ýitýär.
DCGM-metrikiň ýoklugy → "kör" gaýtadan işlemek we aşa gyzdyrmak.
Topologiýanyň NUMA/PCIe → NCCL pes zolagy.
Nädogry MIG/time-slice → p99 latentlik we "Out of Memory" profilleri.
TPS/gizlinlik ýerine CPU boýunça HPA → giç skail.

iGaming/fintech aýratynlyklary

Antifrod/skoring: SLA inferensa ≤ 50 ms p95 kritiki ýollarda (tölegler/netijeler); "fallback" ýeňil modelini saklaň.
Teklipler/şahsylaşdyrma: on-policy/off-policy gije okamak, online-features - pes gizlinlik.
Söhbetdeşlik kömekçileri/RAG: mazmuny kesmek, haýyşlary gaýtalamak, guardrails; wektor gözleg indekslerini tertiplemek.
Piki (oýunlar/ýaryşlar): modelleri/kv-cache gyzdyrmak, minReplicas köpeltmek, VIP üçin QoS synplary.

Jemi

Demir (HBM/NVLink/IB), soft matrisa (CUDA/NCCL), meýilleşdiriş (MIG, nobat, taints), maglumatlar (çalt paypline/GDS), syn edilmegi (DCGM/SLO) we bahasy (FinOps/kwotalar) bilelikde işleýär. Muny IaC we klaster syýasatynda kesgitläň - we öňünden aýdyp boljak okuw tizligini, pes p95 gizlinligi we aç-açan GPU sagady ykdysadyýetini alarsyňyz.