GPU düğümleri ve ML hesaplamaları
Kısa Özet
Bir GPU üzerinde başarılı bir ML yığını, donanım, yazılım, planlama, veri ve gözlemlenebilirlik çözümlerinin bir koleksiyonudur. Küme eşit derecede iyi yapabilmelidir:1. Tren modelleri (yüksek kullanım, hızlı kontrol noktaları, kesinti toleransı)
2. Servis çıkarımı (yüksek dönüşümde düşük p95-gecikme),
3. Maliyet öngörülebilir para (FinOps, kotalar, çoklu kiracılık),
4. Güvenli olun (izolasyon, tedarik zinciri, ölçeklerin/veri kümelerinin kontrolü).
Donanım ve topolojiler
GPU ve bellek
HBM hacmi ve bandı LLM/RecSys için "ham TFLOPS'dan daha önemlidir.
Birçok küçük isteğin çıkarımı için - dahili belleğin önceliği (KV-önbellek) ve yüksek saatler/güç sınırı.
Bağlantı
NVLink/NVSwitch - hızlı her şeyi azaltmak için düğümün içinde.
InfiniBand/RoCE - DDP/FSDP için düğümler arası değişim (≥ 100-200 Gb/s).
PCIe ağacı: NIC ve GPU'yu aynı NUMA düğümünde tutmaya çalışın; Sıcak PCIe-switch darboğazından kaçının.
Temel BIOS/Ana Bilgisayar Ayarı
Performans modları, C-durumlarını devre dışı bırakma (veya artırılmış minimum), NUMA farkındalığı, kritik PCIe'de ASPM kapalı.
Güç: kararlı profiller, agresif güç tasarrufu değil - aksi takdirde p99 "titriyor".
Temel yumuşak yığın
NVIDIA + CUDA + cuDNN/TensorRT uyumluluk matrisi eşleşen sürücüler.
Konteynerlerin içindeki GPU'lar için NVIDIA Container Toolkit.
NCCL (kolektifler), UCX (taşıma), Apex/xFormers/Flash-Attention - hız için.
Hızlı NVMe/IB'de isteğe bağlı GDS (GPUDirect Storage) - veri akışını hızlandırır.
GPU için Kubernetes
Temel bileşenler
NVIDIA GPU Operatörü (sürücüler, DCGM, aygıt eklentisi).
NVIDIA Aygıt Eklentisi - kaynak dışa aktarma 'nvidia. com/gpu '.
MIG (A100/H100) - bir fiziksel GPU'nun izole edilmiş profillere bölünmesi (örneğin, '1g. 10gb ').
Zaman dilimleme - GPU'nun küçük çıkarım görevleri için zamanında mantıksal olarak bölünmesi.
Düğüm Özelliği Keşfi - GPU türüne/topolojisine göre etiketler.
Planlama ve izolasyon
Eğitim/çıkarım/deneyleri ayırmak için Tains/Tolerations/NodeSelectors.
NUMA hizalaması için Topology Manager ve CPU Manager (statik).
K8s/Ray üzerinde Volkan/Slurm - kuyruklar, öncelikler, büyük işler için ön hazırlık.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Özel bir eğitim havuzu için renk/yakınlık örneği:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Öğrenme: Ölçek ve Sürdürülebilirlik
Eşzamanlılık
DDP - standart veri eşzamanlılığı.
FSDP/ZeRO - sharding parametreleri/dolu/optimize edici, hafızayı azaltır.
Tensör/Boru Hattı Paralel - çok büyük LLM'ler için; NVLink/IB gerektirir.
Degrade Birikimi - Bellek tepe noktalarını artırmadan etkili toplu işlemi artırır.
Karışık doğruluk ve bellek optimizasyonları
AMP (bf16/fp16) + kayıp ölçekleme; H100/new için - FP8 mümkünse.
Etkinleştirme/Degrade Kontrol Noktası, uzun diziler için Flash-Dikkat.
Sonuç çıkarmaya hazırlanmak için Paged/Chunked KV-cache.
Kontrol noktaları ve hata toleransı
Hızlı NVMe/nesne için sık artımlı denetim noktaları.
Idempotent jablar (tekrarlayan yara tanımlayıcıları).
Nokta kararlılığı: SIGTERM'i yakalarız, durumu hızlı bir şekilde birleştiririz; Zamanlayıcı işi kuyruğa döndürür.
Önemli NCCL/Ağ Değişkenleri (Örnek)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Çıkarım: düşük gecikme süresi, yüksek getiri
Servis çerçeveleri
Triton Çıkarım Sunucusu, TensorRT/ONNX/TS/PyTorch için tek bir sunucudur.
vLLM/TGI/TensorRT-LLM - LLM uzmanları (sayfalı-dikkat, etkili KV-önbellek, sürekli gruplama).
Hızlanma teknikleri
Niceleme: INT8/FP8/quantum. -Aware (AWQ, GPTQ) - VRAM'de azalma, TPS'de artış.
Gruplama/Sürekli gruplama: p95 büyümesi olmadan istek patlamalarına hizmet eder.
HBM'de KV-önbellek sabitleme, bağlam azaltma; Spekülatif kod çözme (taslak model).
GPU'da eşzamanlılık: MIG/zaman dilimli çoklu iş parçacıkları/modeller.
Hedef profiller (SLO örneği)
Sohbet modeli yanıtının p95 gecikmesi ≤ önek/belirteç başına 300 ms;
Verim ≥ Hedef profilde 200 akım/s/GPU;
P99 kuyrukları sheduling (QoS sınıfları ve bağlam sınırları) ile kontrol edilir.
Triton dağıtımı (parça)
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Veri ve boru hatları
Biçimler: Parke/Ok, webdataset (tar-shards) akış okuma için.
Prefetch/Async I/O: DataLoader- ы с pin-memory, prefetch-pipelines, GDS.
Çevrimiçi özellikler için Özellik Mağazası (dolandırıcılıkla mücadele/öneriler).
Sürüm oluşturma: DVC/LakeFS/MLflow Model Kaydı; veri kümelerini, kodları ve hiper parametreleri yakalayın.
Gözlemlenebilirlik ve SLO
DCGM/Prometheus metrikleri (minimum)
'dcgm _ sm _ util', 'dcgm _ fb _ used', 'dcgm _ power _ usage', 'dcgm _ pcie _ rx/tx', 'dcgm _ dram _ bw'
Sıcaklıklar/frekanslar ve ECC hataları (büyüme için uyarı).
Elde edilen Doluluk ve durak nedenleri (dar çekirdek katman).
Servis Metrikleri
Üretimsel modeller: belirteçler/sn, p50/p95/p99, kuyruk derinliği, bellek hatası.
Eğitim: adımlar/sn, dönem zamanı, tamamen azaltılmış verimlilik, I/O'da % zaman.
SLO paneli: uyumluluk p95, "hata bütçesi" (≥ 99. %5 "başarılı" çıkarım).
Uyarı (fikirler)
'fb _ used/ fb_total> 0. 95 '5 мин - gaz/ölçek çıkışı.
Aynı elden çıkarma - model/kod bozulması ile TPS % N düşer.
ECC/sıcaklık artışı - iş/olay demir göçü.
Güvenlik ve izolasyon
Çoklu kiracılık: MIG profilleri veya takım başına düğümler, ad alanları/kotalar.
IOMMU/PSP, cgroups, ayrıcalıklı konteyner engelleme, CAP _ constraint.
MPS (çok işlemli servis) - düzgün: daha yüksek bertaraf, ancak ayırma MIG'den daha zayıftır.
Tedarik zinciri: konteyner imzaları (cosign), eserlerin doğrulanması, model yüklemelerinin kontrolü.
Veri/ağırlıklar: diskte şifreleme, erişim kontrolü (ABAC/RBAC), filigranlar/modellerin karma kayıtları.
FinOps: maliyet, kotalar, otomatik ölçek
Düğüm havuzları: 'train' (on-demand/reserves), 'infer' (mix on-demand + spot), 'exp' (spot-heavy).
Nokta kararlılığı: sık kontrol noktaları, hızlı yeniden başlatma mantığı, öncelikleri olan Volkan kuyrukları.
Rezervler/RI/Tasarruf Planları istikrarlı bir tabana; Boş düğümleri otomatik devre dışı bırak.
Sağ boyutlandırma modelleri: "tam" model yerine niceleme/LoRA adaptörleri; SLA altında MIG profillerini seçin.
Bütçe taslağı: Takım başına GPU-saat kotaları, "1k istekleri/belirteçleri için maliyet".
YAML Desenler ve Eserler
1) MIG profili (kavramsal)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Eğitim için volkan kuyruğu
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) Dönüş derinliği çıkarımı otomatik ölçeği için KEDA
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
GPU Küme Başlangıç Kontrol Listesi
- NVLink/IB topoloji haritası; Bir NUMA üzerinde NIC/GPU.
- Sürücüler/CUDA tutarlı, Operatör/Aygıt eklentisi yüklü.
- MIG/zaman dilimleme profilleri ve ad alanları için kotalar.
- DDP/FSDP boru hattı evreleme üzerinde test; Kontrol noktaları hızlıdır.
- Triton/vLLM с sürekli gruplama; P95 ve TPS hedefleri belirlenmiştir.
- DCGM/Prometheus/Grafana + ECC uyarıları/sıcaklık/bellek/TPS.
- Güvenlik politikaları (PSP, cosign, ağırlık gizleme/kontrol).
- FinOps: spot/ri havuzları, $/1k belirteçleri raporu, boşta otomatik kapatma.
Yaygın hatalar
Eğitim ve çıkarım, aynı düğümlerde lekeler olmadan karıştırılır - GPU/IO birbirine "kesilir".
Kontrol noktaları ve ön alma mantığı yok - yerinde ilerleme kaybı.
DCGM-metriklerin yokluğu - "kör" bertaraf ve aşırı ısınma.
NUMA/PCIe topolojisinin yoksayılması - düşük NCCL bant genişliği.
Yanlış MIG/zaman dilimi - p99 gecikme ve "Bellek Dışı" profilleri.
TPS/gecikme süresi yerine CPU tarafından HPA - geç ölçek.
iGaming/fintech özgüllüğü
Antifraud/puanlama: Kritik yollarda 50 ms p95 ≤ SLA çıkarımı (ödemeler/sonuçlar); "Fallback" modelini hafif tutun.
Öneriler/kişiselleştirme: Geceleri politika üstü/politika dışı öğrenme, çevrimiçi özellikler - düşük gecikme süresi.
Sohbet Asistanları/RAG: İçerik Önbelleği, İstek Dedeuplication, Korkuluklar; Sharding vektör arama endeksleri.
Zirveler (maçlar/turnuvalar): ön ısınma modelleri/kv-önbellek, minReplicas, VIP için QoS sınıflarını artırın.
Toplam
GPU hesaplama yığını, donanım (HBM/NVLink/IB), yazılım matrisi (CUDA/NCCL), zamanlama (MIG, kuyruk, sızıntı), veri (hızlı boru hattı/GDS), gözlemlenebilirlik (DCGM/SLO) ve maliyet (FinOpl s/kotalar) konserde çalışmak. Bunu IaC ve küme politikasına bağlayın - ve öngörülebilir öğrenme hızları, istikrarlı düşük p95 gecikme çıkarımı ve şeffaf bir GPU saat ekonomisi elde edersiniz.