GH GambleHub

GPU düğümleri ve ML hesaplamaları

Kısa Özet

Bir GPU üzerinde başarılı bir ML yığını, donanım, yazılım, planlama, veri ve gözlemlenebilirlik çözümlerinin bir koleksiyonudur. Küme eşit derecede iyi yapabilmelidir:

1. Tren modelleri (yüksek kullanım, hızlı kontrol noktaları, kesinti toleransı)

2. Servis çıkarımı (yüksek dönüşümde düşük p95-gecikme),

3. Maliyet öngörülebilir para (FinOps, kotalar, çoklu kiracılık),

4. Güvenli olun (izolasyon, tedarik zinciri, ölçeklerin/veri kümelerinin kontrolü).

Donanım ve topolojiler

GPU ve bellek

HBM hacmi ve bandı LLM/RecSys için "ham TFLOPS'dan daha önemlidir.
Birçok küçük isteğin çıkarımı için - dahili belleğin önceliği (KV-önbellek) ve yüksek saatler/güç sınırı.

Bağlantı

NVLink/NVSwitch - hızlı her şeyi azaltmak için düğümün içinde.
InfiniBand/RoCE - DDP/FSDP için düğümler arası değişim (≥ 100-200 Gb/s).
PCIe ağacı: NIC ve GPU'yu aynı NUMA düğümünde tutmaya çalışın; Sıcak PCIe-switch darboğazından kaçının.

Temel BIOS/Ana Bilgisayar Ayarı

Performans modları, C-durumlarını devre dışı bırakma (veya artırılmış minimum), NUMA farkındalığı, kritik PCIe'de ASPM kapalı.
Güç: kararlı profiller, agresif güç tasarrufu değil - aksi takdirde p99 "titriyor".

Temel yumuşak yığın

NVIDIA + CUDA + cuDNN/TensorRT uyumluluk matrisi eşleşen sürücüler.
Konteynerlerin içindeki GPU'lar için NVIDIA Container Toolkit.
NCCL (kolektifler), UCX (taşıma), Apex/xFormers/Flash-Attention - hız için.
Hızlı NVMe/IB'de isteğe bağlı GDS (GPUDirect Storage) - veri akışını hızlandırır.

GPU için Kubernetes

Temel bileşenler

NVIDIA GPU Operatörü (sürücüler, DCGM, aygıt eklentisi).
NVIDIA Aygıt Eklentisi - kaynak dışa aktarma 'nvidia. com/gpu '.
MIG (A100/H100) - bir fiziksel GPU'nun izole edilmiş profillere bölünmesi (örneğin, '1g. 10gb ').
Zaman dilimleme - GPU'nun küçük çıkarım görevleri için zamanında mantıksal olarak bölünmesi.
Düğüm Özelliği Keşfi - GPU türüne/topolojisine göre etiketler.

Planlama ve izolasyon

Eğitim/çıkarım/deneyleri ayırmak için Tains/Tolerations/NodeSelectors.
NUMA hizalaması için Topology Manager ve CPU Manager (statik).
K8s/Ray üzerinde Volkan/Slurm - kuyruklar, öncelikler, büyük işler için ön hazırlık.

Pod'da bir GPU isteği örneği:
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Özel bir eğitim havuzu için renk/yakınlık örneği:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Öğrenme: Ölçek ve Sürdürülebilirlik

Eşzamanlılık

DDP - standart veri eşzamanlılığı.
FSDP/ZeRO - sharding parametreleri/dolu/optimize edici, hafızayı azaltır.
Tensör/Boru Hattı Paralel - çok büyük LLM'ler için; NVLink/IB gerektirir.
Degrade Birikimi - Bellek tepe noktalarını artırmadan etkili toplu işlemi artırır.

Karışık doğruluk ve bellek optimizasyonları

AMP (bf16/fp16) + kayıp ölçekleme; H100/new için - FP8 mümkünse.
Etkinleştirme/Degrade Kontrol Noktası, uzun diziler için Flash-Dikkat.
Sonuç çıkarmaya hazırlanmak için Paged/Chunked KV-cache.

Kontrol noktaları ve hata toleransı

Hızlı NVMe/nesne için sık artımlı denetim noktaları.
Idempotent jablar (tekrarlayan yara tanımlayıcıları).
Nokta kararlılığı: SIGTERM'i yakalarız, durumu hızlı bir şekilde birleştiririz; Zamanlayıcı işi kuyruğa döndürür.

Önemli NCCL/Ağ Değişkenleri (Örnek)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Çıkarım: düşük gecikme süresi, yüksek getiri

Servis çerçeveleri

Triton Çıkarım Sunucusu, TensorRT/ONNX/TS/PyTorch için tek bir sunucudur.
vLLM/TGI/TensorRT-LLM - LLM uzmanları (sayfalı-dikkat, etkili KV-önbellek, sürekli gruplama).

Hızlanma teknikleri

Niceleme: INT8/FP8/quantum. -Aware (AWQ, GPTQ) - VRAM'de azalma, TPS'de artış.
Gruplama/Sürekli gruplama: p95 büyümesi olmadan istek patlamalarına hizmet eder.
HBM'de KV-önbellek sabitleme, bağlam azaltma; Spekülatif kod çözme (taslak model).
GPU'da eşzamanlılık: MIG/zaman dilimli çoklu iş parçacıkları/modeller.

Hedef profiller (SLO örneği)

Sohbet modeli yanıtının p95 gecikmesi ≤ önek/belirteç başına 300 ms;

Verim ≥ Hedef profilde 200 akım/s/GPU;

P99 kuyrukları sheduling (QoS sınıfları ve bağlam sınırları) ile kontrol edilir.

Triton dağıtımı (parça)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Veri ve boru hatları

Biçimler: Parke/Ok, webdataset (tar-shards) akış okuma için.
Prefetch/Async I/O: DataLoader- ы с pin-memory, prefetch-pipelines, GDS.
Çevrimiçi özellikler için Özellik Mağazası (dolandırıcılıkla mücadele/öneriler).
Sürüm oluşturma: DVC/LakeFS/MLflow Model Kaydı; veri kümelerini, kodları ve hiper parametreleri yakalayın.

Gözlemlenebilirlik ve SLO

DCGM/Prometheus metrikleri (minimum)

'dcgm _ sm _ util', 'dcgm _ fb _ used', 'dcgm _ power _ usage', 'dcgm _ pcie _ rx/tx', 'dcgm _ dram _ bw'

Sıcaklıklar/frekanslar ve ECC hataları (büyüme için uyarı).
Elde edilen Doluluk ve durak nedenleri (dar çekirdek katman).

Servis Metrikleri

Üretimsel modeller: belirteçler/sn, p50/p95/p99, kuyruk derinliği, bellek hatası.
Eğitim: adımlar/sn, dönem zamanı, tamamen azaltılmış verimlilik, I/O'da % zaman.
SLO paneli: uyumluluk p95, "hata bütçesi" (≥ 99. %5 "başarılı" çıkarım).

Uyarı (fikirler)

'fb _ used/ fb_total> 0. 95 '5 мин - gaz/ölçek çıkışı.
Aynı elden çıkarma - model/kod bozulması ile TPS % N düşer.
ECC/sıcaklık artışı - iş/olay demir göçü.

Güvenlik ve izolasyon

Çoklu kiracılık: MIG profilleri veya takım başına düğümler, ad alanları/kotalar.
IOMMU/PSP, cgroups, ayrıcalıklı konteyner engelleme, CAP _ constraint.
MPS (çok işlemli servis) - düzgün: daha yüksek bertaraf, ancak ayırma MIG'den daha zayıftır.
Tedarik zinciri: konteyner imzaları (cosign), eserlerin doğrulanması, model yüklemelerinin kontrolü.
Veri/ağırlıklar: diskte şifreleme, erişim kontrolü (ABAC/RBAC), filigranlar/modellerin karma kayıtları.

FinOps: maliyet, kotalar, otomatik ölçek

Düğüm havuzları: 'train' (on-demand/reserves), 'infer' (mix on-demand + spot), 'exp' (spot-heavy).
Nokta kararlılığı: sık kontrol noktaları, hızlı yeniden başlatma mantığı, öncelikleri olan Volkan kuyrukları.
Rezervler/RI/Tasarruf Planları istikrarlı bir tabana; Boş düğümleri otomatik devre dışı bırak.
Sağ boyutlandırma modelleri: "tam" model yerine niceleme/LoRA adaptörleri; SLA altında MIG profillerini seçin.
Bütçe taslağı: Takım başına GPU-saat kotaları, "1k istekleri/belirteçleri için maliyet".

YAML Desenler ve Eserler

1) MIG profili (kavramsal)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Eğitim için volkan kuyruğu

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) Dönüş derinliği çıkarımı otomatik ölçeği için KEDA

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU Küme Başlangıç Kontrol Listesi

  • NVLink/IB topoloji haritası; Bir NUMA üzerinde NIC/GPU.
  • Sürücüler/CUDA tutarlı, Operatör/Aygıt eklentisi yüklü.
  • MIG/zaman dilimleme profilleri ve ad alanları için kotalar.
  • DDP/FSDP boru hattı evreleme üzerinde test; Kontrol noktaları hızlıdır.
  • Triton/vLLM с sürekli gruplama; P95 ve TPS hedefleri belirlenmiştir.
  • DCGM/Prometheus/Grafana + ECC uyarıları/sıcaklık/bellek/TPS.
  • Güvenlik politikaları (PSP, cosign, ağırlık gizleme/kontrol).
  • FinOps: spot/ri havuzları, $/1k belirteçleri raporu, boşta otomatik kapatma.

Yaygın hatalar

Eğitim ve çıkarım, aynı düğümlerde lekeler olmadan karıştırılır - GPU/IO birbirine "kesilir".
Kontrol noktaları ve ön alma mantığı yok - yerinde ilerleme kaybı.
DCGM-metriklerin yokluğu - "kör" bertaraf ve aşırı ısınma.
NUMA/PCIe topolojisinin yoksayılması - düşük NCCL bant genişliği.
Yanlış MIG/zaman dilimi - p99 gecikme ve "Bellek Dışı" profilleri.
TPS/gecikme süresi yerine CPU tarafından HPA - geç ölçek.

iGaming/fintech özgüllüğü

Antifraud/puanlama: Kritik yollarda 50 ms p95 ≤ SLA çıkarımı (ödemeler/sonuçlar); "Fallback" modelini hafif tutun.
Öneriler/kişiselleştirme: Geceleri politika üstü/politika dışı öğrenme, çevrimiçi özellikler - düşük gecikme süresi.
Sohbet Asistanları/RAG: İçerik Önbelleği, İstek Dedeuplication, Korkuluklar; Sharding vektör arama endeksleri.
Zirveler (maçlar/turnuvalar): ön ısınma modelleri/kv-önbellek, minReplicas, VIP için QoS sınıflarını artırın.

Toplam

GPU hesaplama yığını, donanım (HBM/NVLink/IB), yazılım matrisi (CUDA/NCCL), zamanlama (MIG, kuyruk, sızıntı), veri (hızlı boru hattı/GDS), gözlemlenebilirlik (DCGM/SLO) ve maliyet (FinOpl s/kotalar) konserde çalışmak. Bunu IaC ve küme politikasına bağlayın - ve öngörülebilir öğrenme hızları, istikrarlı düşük p95 gecikme çıkarımı ve şeffaf bir GPU saat ekonomisi elde edersiniz.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.