GPU-Knoten und ML-Berechnungen
Kurze Zusammenfassung
Ein erfolgreicher ML-Stack auf einer GPU ist eine Sammlung von Hardware-, Software-, Planungs-, Daten- und Beobachtbarkeitslösungen. Ein Cluster muss in der Lage sein, gleich gut:1. Modelle trainieren (hohe Auslastung, schnelle Checkpoints, Störfestigkeit),
2. dienen Inference (niedrige p95-Latenz bei hoher Konversion),
3. berechenbares Geld kosten (FinOps, Quoten, Multi-Tenant),
4. sicher sein (Isolierung, Versorgungskette, Waagen-/Dataset-Kontrolle).
Hardware und Topologien
GPU und Speicher
HBM-Volumen und Band sind wichtiger als „rohe TFLOPS“ für LLM/RecSys.
Für die Inferenz der vielen kleinen Anfragen gibt es die Priorität des eingebauten Speichers (KV-Cache) und eine hohe Takt-/Leistungsgrenze.
Konnektivität
NVLink/NVSwitch - innerhalb des Knotens für schnelle All-Reduce.
InfiniBand/RoCE ist ein knotenübergreifender Austausch für DDP/FSDP (≥ 100-200 Gb/s).
PCIe-Baum: Versuchen Sie, dass NIC und GPU auf dem gleichen NUMA-Knoten sitzen; Vermeiden Sie „heiße“ PCIe-Schalter bottleneck.
Grundlegendes BIOS/Knoten-Tuning
Performance-Modi, Deaktivieren von C-Zuständen (oder erhöhtem Minimum), NUMA-Bewusstsein, ASPM-off auf kritischen PCIe.
Ernährung: stabile Profile, keine aggressive Power-Save - sonst „zittert“ p99.
Basis-Software-Stack
NVIDIA + CUDA + cuDNN/TensorRT-Treiber, abgestimmt auf die Kompatibilitätsmatrix.
NVIDIA Container Toolkit für GPUs in Containern.
NCCL (Kollektive), UCX (Transport), Apex/xFormers/Flash-Attention - für Geschwindigkeit.
Optional GDS (GPUDirect Storage) auf schnellen NVMe/IB - beschleunigt den Datenfluss.
Kubernetes für GPUs
Schlüsselkomponenten
NVIDIA GPU Operator (Treiber, DCGM, Device-Plugin).
NVIDIA Device Plugin - Export von Ressourcen 'nvidia. com/gpu`.
MIG (A100/H100) - Unterteilung einer physischen GPU in isolierte Profile (z. B. "1g. 10gb`).
Time-slicing ist eine logische Zeiteinteilung der GPU für kleine Inference-Aufgaben.
Node Feature Discovery - Beschriftungen nach GPU/Topologie-Typ.
Planung und Isolierung
Taints/Tolerations/NodeSelectors zur Trennung von Training/Inference/Experimenten.
Topology Manager und CPU Manager (statisch) für die NUMA-Ausrichtung.
Volcano/Slurm on K8s/Ray - Warteschlangen, Prioritäten, Vorbereitung für große Jobs.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Beispiel taint/affinity für einen dedizierten Trainingspool:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Ausbildung: Umfang und Nachhaltigkeit
Parallelität
DDP ist die Standard-Datenparallelität.
FSDP/ZeRO - Sharding Parameter/Hagel/Optimierer, reduziert den Speicher.
Tensor/Pipeline Parallel - für sehr große LLMs; erfordert NVLink/IB.
Gradient Accumulation - Erhöht die effektive Batch ohne Speicherspitzen zu wachsen.
Gemischte Genauigkeit und Speicheroptimierung
AMP (bf16/fp16) + loss scaling; für H100/neu - FP8 wo möglich.
Aktivierung/Gradient Checkpointing, Flash-Attention für lange Sequenzen.
Paged/Chunked KV-Cache zur Vorbereitung auf die Inferenz.
Häufige inkrementelle Checkpoints zu schnellen NVMe/Objekten mit Retench.
Idempotente Jobs (wiederholbare Wundkennungen).
Spot-Stabilität: fangen SIGTERM, schnell verschmelzen Zustand; Scheduler setzt den Job zurück in die Warteschlange.
Wichtige NCCL/Netzwerkvariablen (Beispiel)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Inference: geringe Latenz, hohe Rendite
Serving-Frameworks
Triton Inference Server ist ein einzelner Server für TensorRT/ONNX/TS/PyTorch.
vLLM/TGI/TensorRT-LLM - LLM-Spezialisten (paged-attention, effektiver KV-Cache, continuous batching).
Beschleunigungstechniken
Quantisierung: INT8/FP8/quant. -aware (AWQ, GPTQ) - VRAM-Reduktion, TPS-Wachstum.
Batching/Continuous batching: Dienen Sie Anfragepakete ohne p95-Wachstum.
KV-Cache-Pinning in HBM, Reduzierung von Kontexten; speculative decoding (Entwurfsmodell).
Concurrency auf GPU: mehrere Streams/Modelle unter MIG/Time-Slice.
Zielprofile (Beispiel SLO)
p95 Latenz der Antwort des Chat-Modells ≤ 300 ms pro Präfix/Token;
Throughput ≥ 200 Strom/s/GPU auf dem Zielprofil;
Die p99-Schwänze werden durch Scheduling gesteuert (QoS-Klassen und Kontextgrenzen).
Triton-Bereitstellung (Fragment)
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Daten und Pipelines
Formate: Parkett/Pfeil, webdataset (tar-shards) für Streaming-Lesen.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Feature Store für Online-Fich (Betrugsbekämpfung/Empfehlungen).
Versionierung: DVC/LakeFS/MLflow Model Registry; Datumsangaben, Code und Hyperparameter erfassen.
Beobachtbarkeit und SLO
DCGM/Prometheus-Metriken (Minimum)
`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`
Temperaturen/Frequenzen und ECC errors (alert auf Wachstum).
Achieved Occupancy und stall reasons (schmale Kernschicht).
Service-Metriken
Generative Modelle: tokens/sec, p50/p95/p99, queue depth, memory failure.
Training: Schritte/sec, Epochenzeit, All-Reduce-Effizienz,% der Zeit in I/O.
SLO-Panel: Compliance p95, „Fehlerbudget“ (≥ 99. 5% der „erfolgreichen“ Inferenzen).
Alerting (Ideen)
`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
N% Rückgang der TPS bei gleicher Entsorgung - Modell-/Code-Degradation.
ECC/Temperaturanstieg → Jobmigration/Zwischenfall im Eisen.
Sicherheit und Isolierung
Multi-Tenant: MIG-Profile oder Nodes „per-team“, namespaces/quotas.
IOMMU/PSP, cgroups, Verbot von privilegierten Containern, Beschränkung „CAP _“.
MPS (Multi-Process Service) - ordentlich: Höhere Entsorgung, aber schwächere Trennung als MIG.
Supply chain: Container-Signaturen (cosign), Artefakt-Verifikation, Kontrolle von Modellentladungen.
Daten/Gewichte: Verschlüsselung auf Festplatte, Zugriffskontrolle (ABAC/RBAC), „Wasserzeichen “/Hash-Register der Modelle.
FinOps: Kosten, Quoten, Autoscale
Knotenpools: 'train' (on-demand/Reserven), 'infer' (mix on-demand + spot), 'exp' (spot-heavy).
Spot-Robustheit: häufige Checkpoints, schnelle Neustartlogik, Volcano-Warteschlangen mit Prioritäten.
Reserven/RI/Sparpläne auf stabiler Basis; automatische Abschaltung leerer Knoten.
Right-sizing-Modelle: Quantisierung/LoRA-Adapter statt „vollständiges“ Modell; Auswahl von MIG-Profilen unter SLA.
Kontur der Budgets: GPU-Stundenkontingente per Team, „Kosten pro 1k Anfragen/Token“.
YAML-Vorlagen und Artefakte
1) MIG-Profil (konzeptionell)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Volcano Warteschlange für Training
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) KEDA für Inference-Autoscale in der Tiefe der Reihe nach
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
Checkliste zum Starten des GPU-Clusters
- NVLink/IB Topologiekarte; NIC/GPU auf einer einzigen NUMA.
- Treiber/CUDA vereinbart, Operator/Device-Plugin installiert.
- MIG/Zeit-Slicing-Profile und Quoten für Nijmspaces.
- Die DDP/FSDP-Pipeline wird im Staging eingefahren. Checkpoints sind schnell.
- Triton/vLLM с continuous batching; Ziele p95 und TPS sind gesetzt.
- DCGM/Prometheus/Grafana + ECC alerts/temperature/memory/TPS.
- Sicherheitsrichtlinien (PSP, cosign, Verschleierung/Waagenkontrolle).
- FinOps: spot/ri Pools, Bericht „$/1k Token“, Auto-Shootdown idle.
Typische Fehler
Mischen Sie Training und Inference auf einem Knoten ohne Taints → „sägen“ Sie sich gegenseitig GPU/IO.
Keine Checkpoints und Präemptionslogik → Verlust des Fortschritts auf dem Spot.
Das Fehlen von DCGM-Metriken → „blinde“ Entsorgung und Überhitzung.
Ignoriere die NUMA/PCIe-Topologie → das niedrige NCCL-Band.
Falsche MIG/Time-Slice-Profile → p99 Latenz und „Out of Memory“.
HPA über CPU statt TPS/Latenz → späte Scale.
Besonderheiten von iGaming/Fintech
Anti-Fraud/Scoring: SLA-Inferenz ≤ 50 ms p95 auf kritischen Pfaden (Zahlungen/Schlussfolgerungen); Halten Sie ein leichtes „Fallback“ -Modell.
Empfehlungen/Personalisierung: On-Policy/Off-Policy Training bei Nacht, Online-Features - geringe Latenz.
Chat-Assistenten/RAG: Content-Cache, Dedeuplikation von Anfragen, Guardrails; Sharding der Vektorsuchindizes.
Peaks (Matches/Turniere): Pre-Heat Modelle/kv-Cache, Erhöhung minReplicas, QoS-Klassen für VIP.
Summe
Der GPU-Computing-Stack wird wirklich effektiv, wenn Hardware (HBM/NVLink/IB), Software-Matrix (CUDA/NCCL), Planung (MIG, Warteschlange, Taints), Daten (schnelle Pipeline/GDS), Beobachtbarkeit (DCGM )/SLO) und Kosten (FinOps/Quoten) arbeiten konsistent. Verankern Sie dies in der IaC- und Cluster-Richtlinie - und Sie erhalten eine vorhersehbare Lerngeschwindigkeit, eine stabile Inferenz mit niedriger p95-Latenz und eine transparente GPU-Stunden-Wirtschaft.