GPU düğümleri ve ML hesaplamaları

Kısa Özet

Bir GPU üzerinde başarılı bir ML yığını, donanım, yazılım, planlama, veri ve gözlemlenebilirlik çözümlerinin bir koleksiyonudur. Küme eşit derecede iyi yapabilmelidir:

1. Tren modelleri (yüksek kullanım, hızlı kontrol noktaları, kesinti toleransı)

2. Servis çıkarımı (yüksek dönüşümde düşük p95-gecikme),

3. Maliyet öngörülebilir para (FinOps, kotalar, çoklu kiracılık),

4. Güvenli olun (izolasyon, tedarik zinciri, ölçeklerin/veri kümelerinin kontrolü).

Donanım ve topolojiler

GPU ve bellek

HBM hacmi ve bandı LLM/RecSys için "ham TFLOPS'dan daha önemlidir.
Birçok küçük isteğin çıkarımı için - dahili belleğin önceliği (KV-önbellek) ve yüksek saatler/güç sınırı.

Bağlantı

NVLink/NVSwitch - hızlı her şeyi azaltmak için düğümün içinde.
InfiniBand/RoCE - DDP/FSDP için düğümler arası değişim (≥ 100-200 Gb/s).
PCIe ağacı: NIC ve GPU'yu aynı NUMA düğümünde tutmaya çalışın; Sıcak PCIe-switch darboğazından kaçının.

Temel BIOS/Ana Bilgisayar Ayarı

Performans modları, C-durumlarını devre dışı bırakma (veya artırılmış minimum), NUMA farkındalığı, kritik PCIe'de ASPM kapalı.
Güç: kararlı profiller, agresif güç tasarrufu değil - aksi takdirde p99 "titriyor".

Temel yumuşak yığın

NVIDIA + CUDA + cuDNN/TensorRT uyumluluk matrisi eşleşen sürücüler.
Konteynerlerin içindeki GPU'lar için NVIDIA Container Toolkit.
NCCL (kolektifler), UCX (taşıma), Apex/xFormers/Flash-Attention - hız için.
Hızlı NVMe/IB'de isteğe bağlı GDS (GPUDirect Storage) - veri akışını hızlandırır.

GPU için Kubernetes

Temel bileşenler

NVIDIA GPU Operatörü (sürücüler, DCGM, aygıt eklentisi).
NVIDIA Aygıt Eklentisi - kaynak dışa aktarma 'nvidia. com/gpu '.
MIG (A100/H100) - bir fiziksel GPU'nun izole edilmiş profillere bölünmesi (örneğin, '1g. 10gb ').
Zaman dilimleme - GPU'nun küçük çıkarım görevleri için zamanında mantıksal olarak bölünmesi.
Düğüm Özelliği Keşfi - GPU türüne/topolojisine göre etiketler.

Planlama ve izolasyon

Eğitim/çıkarım/deneyleri ayırmak için Tains/Tolerations/NodeSelectors.
NUMA hizalaması için Topology Manager ve CPU Manager (statik).
K8s/Ray üzerinde Volkan/Slurm - kuyruklar, öncelikler, büyük işler için ön hazırlık.

Pod'da bir GPU isteği örneği:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Özel bir eğitim havuzu için renk/yakınlık örneği:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Öğrenme: Ölçek ve Sürdürülebilirlik

Eşzamanlılık

DDP - standart veri eşzamanlılığı.
FSDP/ZeRO - sharding parametreleri/dolu/optimize edici, hafızayı azaltır.
Tensör/Boru Hattı Paralel - çok büyük LLM'ler için; NVLink/IB gerektirir.
Degrade Birikimi - Bellek tepe noktalarını artırmadan etkili toplu işlemi artırır.

Karışık doğruluk ve bellek optimizasyonları

AMP (bf16/fp16) + kayıp ölçekleme; H100/new için - FP8 mümkünse.
Etkinleştirme/Degrade Kontrol Noktası, uzun diziler için Flash-Dikkat.
Sonuç çıkarmaya hazırlanmak için Paged/Chunked KV-cache.

Kontrol noktaları ve hata toleransı

Hızlı NVMe/nesne için sık artımlı denetim noktaları.
Idempotent jablar (tekrarlayan yara tanımlayıcıları).
Nokta kararlılığı: SIGTERM'i yakalarız, durumu hızlı bir şekilde birleştiririz; Zamanlayıcı işi kuyruğa döndürür.

Önemli NCCL/Ağ Değişkenleri (Örnek)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Çıkarım: düşük gecikme süresi, yüksek getiri

Servis çerçeveleri

Triton Çıkarım Sunucusu, TensorRT/ONNX/TS/PyTorch için tek bir sunucudur.
vLLM/TGI/TensorRT-LLM - LLM uzmanları (sayfalı-dikkat, etkili KV-önbellek, sürekli gruplama).

Hızlanma teknikleri

Niceleme: INT8/FP8/quantum. -Aware (AWQ, GPTQ) - VRAM'de azalma, TPS'de artış.
Gruplama/Sürekli gruplama: p95 büyümesi olmadan istek patlamalarına hizmet eder.
HBM'de KV-önbellek sabitleme, bağlam azaltma; Spekülatif kod çözme (taslak model).
GPU'da eşzamanlılık: MIG/zaman dilimli çoklu iş parçacıkları/modeller.

Hedef profiller (SLO örneği)

Sohbet modeli yanıtının p95 gecikmesi ≤ önek/belirteç başına 300 ms;

Verim ≥ Hedef profilde 200 akım/s/GPU;

P99 kuyrukları sheduling (QoS sınıfları ve bağlam sınırları) ile kontrol edilir.

Triton dağıtımı (parça)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Veri ve boru hatları

Biçimler: Parke/Ok, webdataset (tar-shards) akış okuma için.
Prefetch/Async I/O: DataLoader- ы с pin-memory, prefetch-pipelines, GDS.
Çevrimiçi özellikler için Özellik Mağazası (dolandırıcılıkla mücadele/öneriler).
Sürüm oluşturma: DVC/LakeFS/MLflow Model Kaydı; veri kümelerini, kodları ve hiper parametreleri yakalayın.

Gözlemlenebilirlik ve SLO

DCGM/Prometheus metrikleri (minimum)

'dcgm _ sm _ util', 'dcgm _ fb _ used', 'dcgm _ power _ usage', 'dcgm _ pcie _ rx/tx', 'dcgm _ dram _ bw'

Sıcaklıklar/frekanslar ve ECC hataları (büyüme için uyarı).
Elde edilen Doluluk ve durak nedenleri (dar çekirdek katman).

Servis Metrikleri

Üretimsel modeller: belirteçler/sn, p50/p95/p99, kuyruk derinliği, bellek hatası.
Eğitim: adımlar/sn, dönem zamanı, tamamen azaltılmış verimlilik, I/O'da % zaman.
SLO paneli: uyumluluk p95, "hata bütçesi" (≥ 99. %5 "başarılı" çıkarım).

Uyarı (fikirler)

'fb _ used/ fb_total> 0. 95 '5 мин - gaz/ölçek çıkışı.
Aynı elden çıkarma - model/kod bozulması ile TPS % N düşer.
ECC/sıcaklık artışı - iş/olay demir göçü.

Güvenlik ve izolasyon

Çoklu kiracılık: MIG profilleri veya takım başına düğümler, ad alanları/kotalar.
IOMMU/PSP, cgroups, ayrıcalıklı konteyner engelleme, CAP _ constraint.
MPS (çok işlemli servis) - düzgün: daha yüksek bertaraf, ancak ayırma MIG'den daha zayıftır.
Tedarik zinciri: konteyner imzaları (cosign), eserlerin doğrulanması, model yüklemelerinin kontrolü.
Veri/ağırlıklar: diskte şifreleme, erişim kontrolü (ABAC/RBAC), filigranlar/modellerin karma kayıtları.

FinOps: maliyet, kotalar, otomatik ölçek

Düğüm havuzları: 'train' (on-demand/reserves), 'infer' (mix on-demand + spot), 'exp' (spot-heavy).
Nokta kararlılığı: sık kontrol noktaları, hızlı yeniden başlatma mantığı, öncelikleri olan Volkan kuyrukları.
Rezervler/RI/Tasarruf Planları istikrarlı bir tabana; Boş düğümleri otomatik devre dışı bırak.
Sağ boyutlandırma modelleri: "tam" model yerine niceleme/LoRA adaptörleri; SLA altında MIG profillerini seçin.
Bütçe taslağı: Takım başına GPU-saat kotaları, "1k istekleri/belirteçleri için maliyet".

YAML Desenler ve Eserler

1) MIG profili (kavramsal)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Eğitim için volkan kuyruğu

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) Dönüş derinliği çıkarımı otomatik ölçeği için KEDA

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU Küme Başlangıç Kontrol Listesi

NVLink/IB topoloji haritası; Bir NUMA üzerinde NIC/GPU.
Sürücüler/CUDA tutarlı, Operatör/Aygıt eklentisi yüklü.
MIG/zaman dilimleme profilleri ve ad alanları için kotalar.
DDP/FSDP boru hattı evreleme üzerinde test; Kontrol noktaları hızlıdır.
Triton/vLLM с sürekli gruplama; P95 ve TPS hedefleri belirlenmiştir.
DCGM/Prometheus/Grafana + ECC uyarıları/sıcaklık/bellek/TPS.
Güvenlik politikaları (PSP, cosign, ağırlık gizleme/kontrol).
FinOps: spot/ri havuzları, $/1k belirteçleri raporu, boşta otomatik kapatma.

Yaygın hatalar

Eğitim ve çıkarım, aynı düğümlerde lekeler olmadan karıştırılır - GPU/IO birbirine "kesilir".
Kontrol noktaları ve ön alma mantığı yok - yerinde ilerleme kaybı.
DCGM-metriklerin yokluğu - "kör" bertaraf ve aşırı ısınma.
NUMA/PCIe topolojisinin yoksayılması - düşük NCCL bant genişliği.
Yanlış MIG/zaman dilimi - p99 gecikme ve "Bellek Dışı" profilleri.
TPS/gecikme süresi yerine CPU tarafından HPA - geç ölçek.

iGaming/fintech özgüllüğü

Antifraud/puanlama: Kritik yollarda 50 ms p95 ≤ SLA çıkarımı (ödemeler/sonuçlar); "Fallback" modelini hafif tutun.
Öneriler/kişiselleştirme: Geceleri politika üstü/politika dışı öğrenme, çevrimiçi özellikler - düşük gecikme süresi.
Sohbet Asistanları/RAG: İçerik Önbelleği, İstek Dedeuplication, Korkuluklar; Sharding vektör arama endeksleri.
Zirveler (maçlar/turnuvalar): ön ısınma modelleri/kv-önbellek, minReplicas, VIP için QoS sınıflarını artırın.

Toplam

GPU hesaplama yığını, donanım (HBM/NVLink/IB), yazılım matrisi (CUDA/NCCL), zamanlama (MIG, kuyruk, sızıntı), veri (hızlı boru hattı/GDS), gözlemlenebilirlik (DCGM/SLO) ve maliyet (FinOpl s/kotalar) konserde çalışmak. Bunu IaC ve küme politikasına bağlayın - ve öngörülebilir öğrenme hızları, istikrarlı düşük p95 gecikme çıkarımı ve şeffaf bir GPU saat ekonomisi elde edersiniz.