GPU жана ML эсептөө
Кыскача резюме
GPUдагы ийгиликтүү ML-стек - бул темир, программалык камсыздоо, пландаштыруу, маалыматтар жана байкоо жүргүзүү чечимдеринин жыйындысы. Кластер бирдей жакшы билиши керек:1. моделдерди үйрөтүү (жогорку кайра иштетүү, тез текшерүү, үзгүлтүккө туруктуулук),
2. inference (жогорку айлануу менен төмөн p95-жашыруун),
3. акчанын баасы (FinOps, квота, көп тенанттуулук),
4. коопсуз болуу (изоляция, supply chain, тараза/датасет контролдоо).
Темир жана топология
GPU жана эс
HBM көлөмү жана тилкеси маанилүү "чийки TFLOPS" үчүн LLM/RecSys.
Көптөгөн майда-чүйдөсүнө чейин суроо үчүн - ички эс артыкчылыктуу (KV-cache) жана жогорку clocks/power limit.
Байланыш
NVLink/NVSwitch - тез all-reduce үчүн түйүн ичинде.
InfiniBand/RoCE - DDP/FSDP үчүн түйүндөр аралык алмашуу (≥ 100-200 Гб/с).
PCIe-дарак: NIC жана GPU бир NUMA түйүнүндө отурууга аракет; "ысык" PCIe-switch bottleneck качуу.
Негизги тюнинг BIOS/түйүн
Аткаруу режимдери, C-абалын өчүрүү (же жогорулатылган минималдуу), NUMA awareness, ASPM критикалык PCIe боюнча off.
Power: туруктуу профилдери, эч кандай агрессивдүү power-save - башкача p99 "титиреп".
Базалык программалык камсыздоо
NVIDIA + CUDA + cuDNN/TensorRT драйверлери шайкештик матрицасы боюнча макулдашылган.
контейнер ичинде GPU үчүн NVIDIA контейнер куралы.
NCCL (жамааттык), UCX (транспорт), Apex/xFormers/Flash-Attention - ылдамдык үчүн.
Кошумча GDS (GPUDirect Storage) боюнча тез NVMe/IB - маалыматтардын агымын тездетет.
GPU үчүн Kubernetes
Негизги компоненттер
NVIDIA GPU оператору (драйверлер, DCGM, device-plugin).
NVIDIA Device Plugin - экспорттук ресурстар 'nvidia. com/gpu`.
MIG (A100/H100) - бир физикалык ГПУну изоляцияланган профилдерге бөлүү (мисалы, '1g. 10gb`).
Time-slicing - логикалык GPU Infenerce майда милдеттери үчүн убакыт майдалоо.
Node Feature Discovery - GPU/топология түрлөрү боюнча белгилер.
Пландаштыруу жана изоляциялоо
Taints/Tolerations/NodeSelectors окутуу/Inference/эксперименттер бөлүү үчүн.
Topology Manager жана CPU Manager (static) үчүн NUMA тегиздөө.
Volcano/Slurm on K8s/Ray - кезек, артыкчылыктар, чоң джоб үчүн preemption.
yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1
Атайын машыгуу бассейни үчүн taint/affinity үлгүсү:
yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"
Окутуу: масштабы жана туруктуулугу
Параллелизм
DDP - стандарттуу маалымат параллелизми.
FSDP/ZeRO - Параметрлерди/мөндүр/оптимайзерлер, эстутумду азайтат.
Tensor/Pipeline Parallel - абдан чоң LLM үчүн; NVLink/IB талап кылат.
Gradient Accumulation - эс чокуларынын өсүшү жок натыйжалуу батч көбөйтөт.
Аралаш тактык жана эс оптималдаштыруу
AMP (bf16/fp16) + loss scaling; H100/жаңы үчүн - мүмкүн болгон жерде FP8.
Activation/Gradient Checkpointing, узун ырааттуулук үчүн Flash-күбөлүк.
Inference даярдоо үчүн Paged/Chunked KV-cache.
Текшерүү жана иштен чыгуу туруктуулугу
тез NVMe/retenshn менен объект боюнча тез-тез инкременталдык текшерүү.
Idempotent Jobs (кайталануучу RAN-идентификаторлор).
Spot туруктуулук: SIGTERM кармап, тез state агып; пландоочу кезекке джобаны кайтарат.
Маанилүү NCCL/тармак өзгөрмөлөрү (мисал)
bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS
Inference: төмөн жашыруун, жогорку натыйжалуулугу
Сервинг-фреймворктор
Triton Inference Server - TensorRT/ONNX/TS/PyTorch үчүн бирдиктүү сервер.
vLLM/TGI/TensorRT-LLM - LLM адистери (paged-attention, натыйжалуу KV-cache, continuous batching).
тездетүү ыкмалары
Quantization: INT8/FP8/квант. -aware (AWQ, GPTQ) - VRAM кыскартуу, TPS өсүшү.
Batching/Continuous batching: p95 өсүшү жок суроо-пакеттерди тейлөө.
KV-cache pinning HBM, контексттерди азайтуу; speculative decoding (draft-модель).
GPU боюнча Concurrency: MIG/убакыт-slice бир нече агымдар/моделдер.
Максаттуу профилдер (SLO мисалы)
p95 алдын ала/токен боюнча чат модели ≤ 300 ms жооп жашыруун;
Throughput ≥ максаттуу кароо боюнча 200 ток/с/GPU;
p99 куйруктары шедулинг менен көзөмөлдөнөт (QoS класстар жана контексттердин чектери).
Triton deployment
yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]
Маалыматтар жана пайплайндар
Форматтар: Parquet/Arrow, webdataset (tar-шарлар) агымын окуу үчүн.
Prefetch/Async I/O: DataLoader-ы с pin-memory, prefetch-pipelines, GDS.
Feature Store үчүн онлайн сүрөт (antifrod/сунуштар).
Версиялоо: DVC/LakeFS/MLflow Model Registry; датасеттерди, кодду жана гиперпараметрлерди жазыңыз.
Байкоо жана SLO
DCGM/Prometheus метрика (минималдуу)
`dcgm_sm_util`, `dcgm_fb_used`, `dcgm_power_usage`, `dcgm_pcie_rx/tx`, `dcgm_dram_bw`
Температура/жыштык жана ECC errors (өсүү боюнча алерт).
Achieved Occupancy жана stall reasons (ядронун тар катмары).
Тейлөө көрсөткүчтөрү
Генеративдик моделдер: токендер/сек, p50/p95/p99, queue depth, эстутум бузулушу.
Окутуу: кадамдар/сек, доордун убактысы, бардык-reduce натыйжалуулугу, I/O убакыттын%.
SLO Panel: p95 комплаенс, "ката бюджети" (≥ 99. 5% "ийгиликтүү" inferens).
Alerting (идеялар)
`fb_used / fb_total > 0. 95` 5 мин → throttle/scale-out.
Ошол эле утилдештирүү менен TPSтин N% га төмөндөшү моделдин/коддун бузулушу болуп саналат.
ECS/температуранын өсүшү → темир көчүрүү/окуя.
Коопсуздук жана изоляция
Көп тенанттуулук: MIG профилдери же "per-team" ноддору, namespaces/quotas.
IOMMU/PSP, cgroups, артыкчылыктуу контейнерлерге тыюу салуу, чектөө 'CAP _'.
MPS (multi-process service) - кылдат: жогорку кайра иштетүү, бирок бөлүнүү MIG алсыз.
Supply chain: контейнерлердин кол тамгалары (cosign), артефакттарды текшерүү, үлгүлөрдү түшүрүүнү көзөмөлдөө.
Маалыматтар/салмактар: дисктеги шифрлөө, кирүү көзөмөлү (ABAC/RBAC), "суу белгилери "/хэш-реестрлер моделдери.
FinOps: наркы, квота, автоскейл
Түйүндөрдүн пулдары: 'train' (on-demand/камдар), 'infer' (on-demand + spot аралаш), 'exp' (spot-heavy).
Spot туруктуулук: тез-тез текшерүү, тез кайра логика, артыкчылыктары менен Volcano кезек.
Туруктуу базага/RI/Savings Plans камдар; бош түйүндөрдү автоматтык түрдө өчүрүү.
Right-Сизинг моделдер: ордуна/LoRA-адаптер "толук" модели; SLA үчүн MIG профилдерин тандоо.
Бюджеттердин контуру: GPU-саат per-team квоталары, "1k суроо/токендердин баасы".
YAML үлгүлөрү жана экспонаттар
1) MIG кароо (түшүнүк)
yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7
2) Volcano окутуу үчүн кезек
yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64
3) KEDA Autoscale Infenersa үчүн кезек тереңдик
yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"
GPU кластерин ишке киргизүү чек тизмеси
- NVLink/IB топология картасы; бир NUMA боюнча NIC/GPU.
- Драйверлер/CUDA макулдашылган, Оператор/Device-plugin орнотулган.
- MIG/убакыт-slicing неймспейс боюнча профилдер жана квоталар.
- DDP/FSDP pipeline стейджинг боюнча иштелип чыккан; чекпойнт тез.
- Triton/vLLM с continuous batching; p95 жана TPS максаттары белгиленген.
- DCGM/Prometheus/Grafana + Алерт ECC/температура/эс/TPS.
- Коопсуздук саясаты (PSP, cosign, obfusking/тараза контролдоо).
- FinOps: spot/ri пулдар, "$/1k токендер" отчету, idle auto shutdown.
Типтүү каталар
Таинц → бири-бирине GPU/IO "кесүү" жок бир нод боюнча окутуу жана inference аралаштырып.
Чекпойнттор жана preemption-логика жок → пунктка прогрессти жоготуу.
Жок DCGM-метр → "сокур" кайра иштетүү жана ысып.
Ignor NUMA/PCIe топология → NCCL төмөн тилкеси.
Туура эмес MIG/убакыт-slice → p99 жашыруун жана "Memory of Out".
HPA ордуна TPS/жашыруун CPU → кеч Skale.
iGaming/Fintech өзгөчөлүктөрү
Антифрод/эсеби: SLA infenersa ≤ 50 ms p95 критикалык жолдордо (төлөмдөр/корутундулар); жеңил модель "fallback" кармап.
Сунуштар/персоналдаштыруу: on-policy/off-policy окутуу түнкүсүн, онлайн-өзгөчөлүктөрү - төмөн жашыруун.
Чат жардамчылары/RAG: кэш мазмуну, дедеупликация суроо, guardrails; вектордук издөө индекстерин шардалоо.
чокулары (дан/турнир): алдын ала жылытуу моделдер/kv-cache, жогорулатуу minReplicas, VIP үчүн QoS класстар.
Жыйынтык
GPU эсептөө темир (HBM/NVLink/IB), программалык матрица (CUDA/NCCL), пландаштыруу (MIG, кезек, taints), маалыматтар (Fast Paypline/GDS), байкоо (DCGM/SLO) жана наркы (FinOps/квота) макулдашылган иштейт. Аны IaC жана кластердик саясатта бекитүү - жана сиз алдын ала окутуунун ылдамдыгын, төмөн p95-жашыруун жана ачык-айкын GPU-саат экономикасы менен туруктуу inference аласыз.