Nodos GPU y computación ML

Resumen breve

Una pila ML exitosa en la GPU es un conjunto de soluciones de hierro, software, planificación, datos y observabilidad. El clúster debe ser igualmente bueno:

1. entrenar modelos (alta eliminación, facturas rápidas, resistencia a la interrupción),

2. servir infercio (baja p95-latencia en alta conversión),

3. cuesta dinero predecible (FinOps, cuotas, multi-tenencia),

4. ser seguro (aislamiento, cadena de suministro, control de pesos/datos).

Hierro y topologías

GPU y memoria

El volumen y la banda de HBM son más importantes que los «TFLOPS crudos» para LLM/NatSys.
Para un infierno de muchas consultas menores, la prioridad es la memoria incorporada (KV-cache) y el alto límite de clocks/power.

NVLink/NVSwitch - dentro del nodo para una reducción rápida.
InfiniBand/RoCE - Intercambio entre nodos para DDP/FSDP (≥ 100-200 Gb/s).
Árbol PCIe: intente que NIC y GPU se sientan en el mismo nodo NUMA; evite el «caliente» PCIe-switch bottleneck.

Configuración básica del BIOS/nodo

Modos Performance, desactivar los estados C (o aumentar los mínimos), NUMA awareness, ASPM off en PCIe críticos.
Nutrición: perfiles estables, no agresivos power-save - de lo contrario «tiembla» p99.

Pila de software básica

Controladores NVIDIA + CUDA + cuDNN/TensorRT alineados por matriz de compatibilidad.
NVIDIA Container Toolkit para GPU dentro de contenedores.
NCCL (colectivos), UCX (transporte), Apex/xFormers/Flash-Atention - para la velocidad.
Opcionalmente GDS (GPUDirect Storage) en NVMe/IB rápidos: acelera el flujo de datos.

Kubernetes para GPU

Componentes

NVIDIA GPU Operator (controladores, DCGM, dispositivo-plugin).
NVIDIA Device Plugin - exportar recursos 'nvidia. com/gpu`.
AMB (A100/H100): divide una GPU física en perfiles aislados (por ejemplo, '1g. 10gb`).
Time-Slicing es el fraccionamiento lógico de la GPU en el tiempo para pequeñas tareas de inferencia.
Node Feature Discovery - Etiquetas por tipo de GPU/topología.

Planificación y aislamiento

Taints/Tolerations/NodeSelectors para separar entrenamiento/inferencia/experimentación.
Topology Manager y CPU Manager (static) para alineación NUMA.
Volcano/Slurm on K8s/Ray - colas, prioridades, preemption para grandes jobs.

Ejemplo de consulta GPU en Pod:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Ejemplo de taint/affinity para un grupo de entrenamiento dedicado:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Aprendizaje: escala y sostenibilidad

Paralel

DDP es un paralelismo de datos estándar.
FSDP/ZeRO - Charding de parámetros/grados/optimizadores, reduce la memoria.
Tensor/Pipeline Parallel - para LLM muy grandes; requiere NVLink/IB.
Accumulation Gradient: aumenta el batch efectivo sin aumentar los picos de memoria.

Precisión y optimización de memoria mixta

AMP (bf16/fp16) + loss scaling; para H100/nuevos - FP8 donde sea posible.
Activation/Gradient Checkpointing, Flash-Atention para secuencias largas.
Paged/Chunked KV-cache para prepararse para el infierno.

Checkpoints y tolerancia a fallas

Comprobaciones incrementales frecuentes de NVMe/objetos rápidos con retoque.
Jobs idempotentes (identificadores de heridas repetibles).
Spot-resistencia: atrapar SIGTERM, drenar rápidamente el estado; el planificador devuelve el job a la cola.

Variables NCCL/redes importantes (ejemplo)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Infierno: baja latencia, alto rendimiento

Marcos de serving

Triton Inference Server es un único servidor para TensorRT/ONNX/TS/PyTorch.
vLLM/TGI/TensorRT-LLM - Especialistas LLM (paged-attention, eficiente KV-cache, batching continuo).

las Recepciones de la aceleración

Quantization: INT8/FP8/quantum. -aware (AWQ, GPTQ) - reducción de VRAM, crecimiento de TPS.
Batching/Continuous batching: servir paquetes de solicitudes sin crecimiento p95.
KV-cache pinning en HBM, reducción de contextos; speculative decoding (modelo de draft).
Concurrencia en la GPU: Varios subprocesos/modelos en el NAT/time-slice.

Perfiles de destino (ejemplo de SLO)

La latencia de respuesta del modelo de chat de 95 ≤ 300 ms por prefijo/token;

Throughput ≥ 200 corrientes/s/GPU en el perfil de destino;

Las colas p99 son controladas por scheduling (clases de QoS y límites de contextos).

Triton deployment (fragmento)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Datos y pipelines

Formatos: Parquet/Arrow, webdataset (tar-chards) para la lectura en streaming.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Feature Store para fich online (antifraude/recomendaciones).
Versioning: DVC/LakeFS/MLflow Model Registry; fijar los datacets, el código y los hiperparámetros.

Observabilidad y SLO

Métricas DCGM/Prometheus (mínimo)

`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`

Temperaturas/frecuencias y errores ECC (alerta de crecimiento).
Acquieved Occupancy and stall reasons (capa estrecha del núcleo).

Métricas de servicio

Modelos generativos: tokens/sec, p50/p95/p99, queue depth, fallo de memoria.
Entrenamiento: pasos/segundos, tiempo de la era, eficiencia de todo-reducción,% del tiempo en I/O.
Panel SLO: cumplimiento p95, «presupuesto de errores» (≥ 99. 5% de infiernos «exitosos»).

Alerting (ideas)

`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
La caída del TPS en N% con el mismo reciclaje es la degradación del modelo/código.
Aumento de la ECS/temperatura → migración del job/incidente en el hierro.

Seguridad y aislamiento

Multi-Tenantity: Perfiles AMB o nodos «per-team», namespaces/quotas.
IOMMU/PSP, cgroups, prohibición de contenedores privilegiados, restricción de 'CAP _'.
MPS (multi-process service) - suavemente: el reciclaje es más alto, pero la separación es más débil que el AMB.
Cadena de suministro: firmas de contenedores (cosign), verificación de artefactos, control de descarga de modelos.
Datos/pesos: cifrado en disco, control de acceso (ABAC/RBAC), «marcas de agua »/registros hash de modelos.

FinOps: costo, cuotas, auto skale

Grupos de nodos: 'train' (on-demand/reservas), 'infer' (mezcla on-demand + spot), 'amb' (spot-heavy).
Sostenibilidad de spot: facturas frecuentes, lógica de reinicio rápido, colas de Volcano con prioridades.
Reservas/RI/Planes de ahorro a una base estable; apagar automáticamente los nodos vacíos.
Modelos de tamaño correcto: cuantización/adaptadores LoRA en lugar del modelo «completo»; Selección de perfiles AMB bajo SLA.
Esquema de presupuestos: cuotas de horas GPU por equipo, «costo por 1k solicitudes/tokens».

Plantillas y artefactos YAML

1) Perfil AMB (conceptualmente)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Cola de Volcano para entrenamiento

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) KEDA para Auto Scale Infersa a lo largo de la cola

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

Lista de comprobación de inicio del clúster GPU

Mapa de topología NVLink/IB; NIC/GPU en un NUMA.
Los controladores/CUDA están alineados, Operator/Device-plugin está instalado.
Los perfiles y cupos de reducción de tiempo y de importación de los productos no espaciales.
DDP/FSDP pipeline obcatan en el filete; las facturas son rápidas.
Triton/vLLM с continuous batching; los objetivos p95 y TPS se establecen.
DCGM/Prometheus/Grafana + alertas ECC/temperatura/memoria/TPS.
Políticas de seguridad (PSP, cosign, ofuscación/control de pesos).
FinOps: pools spot/ri, informe «$/1k tokens», auto-shootdown idle.

Errores típicos

Mezclar entrenamiento e inferencia en los mismos nodos sin taints → «aserrar» entre sí GPU/IO.
No hay puntos de comprobación y lógica de preemption → pérdida de progreso en spot.
Ausencia de métricas DCGM → eliminación «ciega» y sobrecalentamiento.
Ignora las topologías NUMA/PCIe → la banda NCCL baja.
Perfiles de latencia y «Out of Memory» («Fuera de la memoria») en los que se han → perfiles de latencia en tiempo y en la cantidad de tiempo.
HPA por CPU en lugar de TPS/latencia → skale tardío.

Características específicas de iGaming/fintech

Antifraude/puntuación: SLA infersa ≤ 50 ms p95 en vías críticas (pagos/conclusiones); mantenga el modelo ligero «fallback».
Recomendaciones/personalización: on-policy/off-policy learning por la noche, online-features - baja latencia.
Asistentes de chat/RAG: caché de contenido, desduplicación de consultas, guardrails; charding índices de búsqueda vectorial.
Picks (partidos/torneos): precalentamiento de modelos/kv-cache, aumento de minReplicas, clases QoS para VIP.

Resultado

La pila de computación GPU se vuelve realmente efectiva cuando el hierro (HBM/NVLink/IB), la matriz de software (CUDA/NCCL), la planificación (AMB, cola, taints), los datos (rápida pipeline/GGP DS), la observabilidad (DCGM/SLO) y el costo (FinOps/cuotas) funcionan de manera coherente. Consolide esto en IaC y la política de clústeres, y obtendrá una velocidad de aprendizaje predecible, un infierno estable con baja latencia p95 y una economía de relojes GPU transparente.