GPU жана ML эсептөө

Кыскача резюме

GPUдагы ийгиликтүү ML-стек - бул темир, программалык камсыздоо, пландаштыруу, маалыматтар жана байкоо жүргүзүү чечимдеринин жыйындысы. Кластер бирдей жакшы билиши керек:

1. моделдерди үйрөтүү (жогорку кайра иштетүү, тез текшерүү, үзгүлтүккө туруктуулук),

2. inference (жогорку айлануу менен төмөн p95-жашыруун),

3. акчанын баасы (FinOps, квота, көп тенанттуулук),

4. коопсуз болуу (изоляция, supply chain, тараза/датасет контролдоо).

Темир жана топология

GPU жана эс

HBM көлөмү жана тилкеси маанилүү "чийки TFLOPS" үчүн LLM/RecSys.
Көптөгөн майда-чүйдөсүнө чейин суроо үчүн - ички эс артыкчылыктуу (KV-cache) жана жогорку clocks/power limit.

Байланыш

NVLink/NVSwitch - тез all-reduce үчүн түйүн ичинде.
InfiniBand/RoCE - DDP/FSDP үчүн түйүндөр аралык алмашуу (≥ 100-200 Гб/с).
PCIe-дарак: NIC жана GPU бир NUMA түйүнүндө отурууга аракет; "ысык" PCIe-switch bottleneck качуу.

Негизги тюнинг BIOS/түйүн

Аткаруу режимдери, C-абалын өчүрүү (же жогорулатылган минималдуу), NUMA awareness, ASPM критикалык PCIe боюнча off.
Power: туруктуу профилдери, эч кандай агрессивдүү power-save - башкача p99 "титиреп".

Базалык программалык камсыздоо

NVIDIA + CUDA + cuDNN/TensorRT драйверлери шайкештик матрицасы боюнча макулдашылган.
контейнер ичинде GPU үчүн NVIDIA контейнер куралы.
NCCL (жамааттык), UCX (транспорт), Apex/xFormers/Flash-Attention - ылдамдык үчүн.
Кошумча GDS (GPUDirect Storage) боюнча тез NVMe/IB - маалыматтардын агымын тездетет.

GPU үчүн Kubernetes

Негизги компоненттер

NVIDIA GPU оператору (драйверлер, DCGM, device-plugin).
NVIDIA Device Plugin - экспорттук ресурстар 'nvidia. com/gpu`.
MIG (A100/H100) - бир физикалык ГПУну изоляцияланган профилдерге бөлүү (мисалы, '1g. 10gb`).
Time-slicing - логикалык GPU Infenerce майда милдеттери үчүн убакыт майдалоо.
Node Feature Discovery - GPU/топология түрлөрү боюнча белгилер.

Пландаштыруу жана изоляциялоо

Taints/Tolerations/NodeSelectors окутуу/Inference/эксперименттер бөлүү үчүн.
Topology Manager жана CPU Manager (static) үчүн NUMA тегиздөө.
Volcano/Slurm on K8s/Ray - кезек, артыкчылыктар, чоң джоб үчүн preemption.

Pod үчүн GPU суроо мисал:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Атайын машыгуу бассейни үчүн taint/affinity үлгүсү:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Окутуу: масштабы жана туруктуулугу

Параллелизм

DDP - стандарттуу маалымат параллелизми.
FSDP/ZeRO - Параметрлерди/мөндүр/оптимайзерлер, эстутумду азайтат.
Tensor/Pipeline Parallel - абдан чоң LLM үчүн; NVLink/IB талап кылат.
Gradient Accumulation - эс чокуларынын өсүшү жок натыйжалуу батч көбөйтөт.

Аралаш тактык жана эс оптималдаштыруу

AMP (bf16/fp16) + loss scaling; H100/жаңы үчүн - мүмкүн болгон жерде FP8.
Activation/Gradient Checkpointing, узун ырааттуулук үчүн Flash-күбөлүк.
Inference даярдоо үчүн Paged/Chunked KV-cache.

Текшерүү жана иштен чыгуу туруктуулугу

тез NVMe/retenshn менен объект боюнча тез-тез инкременталдык текшерүү.
Idempotent Jobs (кайталануучу RAN-идентификаторлор).
Spot туруктуулук: SIGTERM кармап, тез state агып; пландоочу кезекке джобаны кайтарат.

Маанилүү NCCL/тармак өзгөрмөлөрү (мисал)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Inference: төмөн жашыруун, жогорку натыйжалуулугу

Сервинг-фреймворктор

Triton Inference Server - TensorRT/ONNX/TS/PyTorch үчүн бирдиктүү сервер.
vLLM/TGI/TensorRT-LLM - LLM адистери (paged-attention, натыйжалуу KV-cache, continuous batching).

тездетүү ыкмалары

Quantization: INT8/FP8/квант. -aware (AWQ, GPTQ) - VRAM кыскартуу, TPS өсүшү.
Batching/Continuous batching: p95 өсүшү жок суроо-пакеттерди тейлөө.
KV-cache pinning HBM, контексттерди азайтуу; speculative decoding (draft-модель).
GPU боюнча Concurrency: MIG/убакыт-slice бир нече агымдар/моделдер.

Максаттуу профилдер (SLO мисалы)

p95 алдын ала/токен боюнча чат модели ≤ 300 ms жооп жашыруун;

Throughput ≥ максаттуу кароо боюнча 200 ток/с/GPU;

p99 куйруктары шедулинг менен көзөмөлдөнөт (QoS класстар жана контексттердин чектери).

Triton deployment

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Маалыматтар жана пайплайндар

Форматтар: Parquet/Arrow, webdataset (tar-шарлар) агымын окуу үчүн.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Feature Store үчүн онлайн сүрөт (antifrod/сунуштар).
Версиялоо: DVC/LakeFS/MLflow Model Registry; датасеттерди, кодду жана гиперпараметрлерди жазыңыз.

Байкоо жана SLO

DCGM/Prometheus метрика (минималдуу)

`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`

Температура/жыштык жана ECC errors (өсүү боюнча алерт).
Achieved Occupancy жана stall reasons (ядронун тар катмары).

Тейлөө көрсөткүчтөрү

Генеративдик моделдер: токендер/сек, p50/p95/p99, queue depth, эстутум бузулушу.
Окутуу: кадамдар/сек, доордун убактысы, бардык-reduce натыйжалуулугу, I/O убакыттын%.
SLO Panel: p95 комплаенс, "ката бюджети" (≥ 99. 5% "ийгиликтүү" inferens).

Alerting (идеялар)

`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
Ошол эле утилдештирүү менен TPSтин N% га төмөндөшү моделдин/коддун бузулушу болуп саналат.
ECS/температуранын өсүшү → темир көчүрүү/окуя.

Коопсуздук жана изоляция

Көп тенанттуулук: MIG профилдери же "per-team" ноддору, namespaces/quotas.
IOMMU/PSP, cgroups, артыкчылыктуу контейнерлерге тыюу салуу, чектөө 'CAP _'.
MPS (multi-process service) - кылдат: жогорку кайра иштетүү, бирок бөлүнүү MIG алсыз.
Supply chain: контейнерлердин кол тамгалары (cosign), артефакттарды текшерүү, үлгүлөрдү түшүрүүнү көзөмөлдөө.
Маалыматтар/салмактар: дисктеги шифрлөө, кирүү көзөмөлү (ABAC/RBAC), "суу белгилери "/хэш-реестрлер моделдери.

FinOps: наркы, квота, автоскейл

Түйүндөрдүн пулдары: 'train' (on-demand/камдар), 'infer' (on-demand + spot аралаш), 'exp' (spot-heavy).
Spot туруктуулук: тез-тез текшерүү, тез кайра логика, артыкчылыктары менен Volcano кезек.
Туруктуу базага/RI/Savings Plans камдар; бош түйүндөрдү автоматтык түрдө өчүрүү.
Right-Сизинг моделдер: ордуна/LoRA-адаптер "толук" модели; SLA үчүн MIG профилдерин тандоо.
Бюджеттердин контуру: GPU-саат per-team квоталары, "1k суроо/токендердин баасы".

YAML үлгүлөрү жана экспонаттар

1) MIG кароо (түшүнүк)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Volcano окутуу үчүн кезек

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) KEDA Autoscale Infenersa үчүн кезек тереңдик

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU кластерин ишке киргизүү чек тизмеси

NVLink/IB топология картасы; бир NUMA боюнча NIC/GPU.
Драйверлер/CUDA макулдашылган, Оператор/Device-plugin орнотулган.
MIG/убакыт-slicing неймспейс боюнча профилдер жана квоталар.
DDP/FSDP pipeline стейджинг боюнча иштелип чыккан; чекпойнт тез.
Triton/vLLM с continuous batching; p95 жана TPS максаттары белгиленген.
DCGM/Prometheus/Grafana + Алерт ECC/температура/эс/TPS.
Коопсуздук саясаты (PSP, cosign, obfusking/тараза контролдоо).
FinOps: spot/ri пулдар, "$/1k токендер" отчету, idle auto shutdown.

Типтүү каталар

Таинц → бири-бирине GPU/IO "кесүү" жок бир нод боюнча окутуу жана inference аралаштырып.
Чекпойнттор жана preemption-логика жок → пунктка прогрессти жоготуу.
Жок DCGM-метр → "сокур" кайра иштетүү жана ысып.
Ignor NUMA/PCIe топология → NCCL төмөн тилкеси.
Туура эмес MIG/убакыт-slice → p99 жашыруун жана "Memory of Out".
HPA ордуна TPS/жашыруун CPU → кеч Skale.

iGaming/Fintech өзгөчөлүктөрү

Антифрод/эсеби: SLA infenersa ≤ 50 ms p95 критикалык жолдордо (төлөмдөр/корутундулар); жеңил модель "fallback" кармап.
Сунуштар/персоналдаштыруу: on-policy/off-policy окутуу түнкүсүн, онлайн-өзгөчөлүктөрү - төмөн жашыруун.
Чат жардамчылары/RAG: кэш мазмуну, дедеупликация суроо, guardrails; вектордук издөө индекстерин шардалоо.
чокулары (дан/турнир): алдын ала жылытуу моделдер/kv-cache, жогорулатуу minReplicas, VIP үчүн QoS класстар.

Жыйынтык

GPU эсептөө темир (HBM/NVLink/IB), программалык матрица (CUDA/NCCL), пландаштыруу (MIG, кезек, taints), маалыматтар (Fast Paypline/GDS), байкоо (DCGM/SLO) жана наркы (FinOps/квота) макулдашылган иштейт. Аны IaC жана кластердик саясатта бекитүү - жана сиз алдын ала окутуунун ылдамдыгын, төмөн p95-жашыруун жана ачык-айкын GPU-саат экономикасы менен туруктуу inference аласыз.