Гиреҳҳои GPU ва ҳисобҳои ML

Хулосаи мухтасар

Маҷмӯаи бомуваффақияти ML дар GPU маҷмӯаи сахтафзор, нармафзор, банақшагирӣ, маълумот ва мушоҳидаҳо мебошад. Кластер бояд қодир бошад, ки баробар кор кунад:

1. Моделҳои қатора (истифодаи баланд, нуқтаҳои гузаргоҳи зуд, таҳаммулпазирии қатъ)

2. хулосаи хидмат (p95-ниҳонии паст ҳангоми табдили баланд),

3. арзиши пешбинишудаи пул (FIN, квотаҳо, бисёрҳуҷрагӣ),

4. бехатар бошед (ҷудокунӣ, занҷири таъминот, назорати миқёс/маҷмӯаҳо).

Таҷҳизот ва топологияҳо

GPU ва хотира

Ҳаҷм ва бандҳои HBM назар ба "TFLOPS хом" барои LLM/Recs муҳимтар аст.
Барои хулосаи бисёр дархостҳои хурд - афзалияти хотираи дарунсохт (КВ-кэш) ва маҳдудияти баланд/қувваи барқ.

Пайвастшавӣ

Ҷодугар NVL bink/NVS - дар дохили гиреҳ барои зуд кам кардан.
Infini-Band/Ro-CE - мубодилаи байни гиреҳҳо барои DDP/FSDP (≥ 100-200 Гб/с).
Дарахти PCI: кӯшиш кунед, ки NIC ва GPU-ро дар ҳамон гиреҳи NUMA нигоҳ доред; аз душвориҳои PCI-e-switch пешгирӣ кунед.

Танзими асосии BIOS/мизбон

Усулҳои иҷро, ғайрифаъол кардани ҳолатҳои C (ё ҳадди аққали афзоиш), огоҳии NUMA, ASPM хомӯш дар PCI-и интиқодӣ.
Қудрат: профилҳои устувор, на сарфаи хашмгин - вагарна p99 "ларзон".

Анбораи мулоими асосӣ

NVIDIA + CUDA + cu

Асбобҳои контейнерии NVIDIA барои GPU дар дохили контейнерҳо.
NCCL (коллективҳо), UCX (нақлиёт), Apex/XFormers/Flash-Attention - барои суръат.
GDS-и ихтиёрӣ (GPUD irect Storage) дар NVM-e/IB - ҷараёни маълумотро суръат мебахшад.

Кубернетҳо барои GPU

Ҷузъҳои асосӣ

Оператори NVIDIA GPU (драйверҳо, DCGM, дастгоҳ-плагин).
Модули дастгоҳи NVIDIA - содироти манбаъҳо 'nvidia. com/gpu '.
MIG (A100/H100) - ба профилҳои ҷудошуда тақсим кардани як GPU ҷисмонӣ (масалан, '1г. 10гб ').
Вақти буридан - тақсимоти мантиқии GPU дар вақташ барои вазифаҳои хурд.
Кашфи хусусияти гиреҳ - тамғакоғазҳо аз рӯи намуди GPU/топология.

Банақшагирӣ ва ҷудокунӣ

Tains/Tolerations/Node .Selectors барои ҷудо кардани омӯзиш/хулоса/таҷрибаҳо.
Менеҷери топология ва менеҷери CPU (статикӣ) барои ҳамоҳангсозии NUMA.
Вулқон/Слурм дар K8s/Ray - навбатҳо, афзалиятҳо, афзалият барои кори калон.

Намунаи дархости GPU дар Pod:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

Намунаи хастагӣ/наздикӣ барои ҳавзи омӯзишии махсус:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

Омӯзиш: Миқёс ва устуворӣ

Мувофиқат

DDP - мувофиқати стандартии маълумот.
FSDP/Ze-RO - параметрҳои тез/жола/оптимизаторҳо, хотираро коҳиш медиҳад.
Параллели Тензор/Қубур - барои LLM-ҳои хеле калон; NVL ‌ ink/IB-ро талаб мекунад.
Ҷамъшавии градиент - партияи муассирро бе зиёд кардани қуллаҳои хотира зиёд мекунад.

Дақиқии омехта ва оптимизатсияи хотира

AMP (bf16/fp16) + миқёси талафот; барои H100/new - FP8 ба қадри имкон.
Фаъолсозӣ/Гузаргоҳи градиентӣ, Flash-Диққат барои пайдарпайии дароз.
Paged/Chunked KV-кэш барои омодагӣ ба хулоса.

Гузаргоҳҳо ва таҳаммулпазирии гуноҳ

Гузаргоҳҳои зуд-зуд афзоянда барои NVM .e/объект бо ретчинг.
Ҷабҳаҳои Idempotent (идентификаторҳои такрории захм).
Устувории нуқта: мо SIGTERM-ро сайд мекунем, давлатро зуд муттаҳид мекунем; нақшадиҳанда корро ба навбат бармегардонад.

Тағирёбандаҳои муҳими NCCL/шабака (мисол)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

Хулоса: таъхири кам, бозгашти баланд

Чаҳорчӯбаи хидматрасонӣ

Triton Inference Server як сервери ягона барои Tensor

vLLM/TGI/TensorRT-LLM - мутахассисони LLM (paged-диққат, KV-кэши самаранок, бастабандии доимӣ).

Усулҳои суръатбахшӣ

Миқдор: INT8/FP8/quantum. -авар (AWQ, GPTQ) - коҳиш дар VRAM, афзоиши TPS.
Бастабандӣ/Бастабандии муттасил: хидмат расонидан ба дархостҳо бидуни афзоиши p95.
Пинҳон кардани KV-кэш дар HBM, кам кардани контекст; рамзкушоии спекулятивӣ (лоиҳаи модел).
Мувофиқати GPU: риштаҳо/моделҳои сершумор бо MIG/time-slice.

Профилҳои мақсаднок (мисоли SLO)

p95 таъхири вокуниши модели чат ≤ 300 мс дар як префикс/токен;

Гузариш ≥ 200 ҷараён/с/GPU дар профили мақсаднок;

думҳои p99 бо рехтан назорат карда мешаванд (синфҳои QOS ва маҳдудиятҳои контекст).

Ҷойгиркунии Тритон (порча)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

Маълумот ва қубурҳо

Форматҳо: Parquet/Arrow, webdataset (tar-shards) барои хондани ҷараён.
Префетч/Асинч I/О: Дато Лодер-ы с пин-хотира, префетч-қубурҳо, ГДС.
Дӯкони хусусият барои хусусиятҳои онлайн (зидди қаллобӣ/тавсияҳо).
Версия: Феҳристи моделҳои DVC/Lake ҷамъоварии маҷмӯаҳо, код ва гиперпараметрҳо.

Мушоҳида ва SLO

Андозагирии DCGM/Prometheus (ҳадди аққал)

'dcgm _ sm _ util', 'dcgm _ fb _ used', 'dcgm _ power _ usage', 'dcgm _ pcie _ rx/tx', 'dcgm _ dram _ bw'

Ҳарорат/басомадҳо ва хатогиҳои ECC (ҳушдор барои афзоиш).
Сабабҳои ба даст овардашуда ва дӯконҳо (қабати танги аслӣ).

Нишондиҳандаҳои хидматӣ

Моделҳои тавлидӣ: токенҳо/сек, p50/p95/p99, умқи навбат, нокомии хотира.
Омӯзиш: қадамҳо/сек, вақти даврӣ, самаранокии ҳаматарафа,% вақт дар I/O.
Панели SLO: риояи p95, "буҷаи хато" (≥ 99). 5% хулосаи "муваффақ").

Ҳушдор (ғояҳо)

'fb _ used/ fb_total> 0. 95 '5 мин → дроссел/миқёс.
TPS бо ихтиёри якхела N% коҳиш меёбад - таназзули модел/код.
ECC/болоравии ҳарорат → муҳоҷирати оҳан/ҳодиса.

Бехатарӣ ва ҷудоӣ

Бисёрҳуҷрагӣ: профилҳои MIG ё гиреҳҳои як гурӯҳ, номҳо/квотаҳо.
IOMMU/PSP, гуруҳҳо, монеаи имтиёзноки контейнер, CAP _ маҳдудият.
MPS (хидмати бисёрсоҳавӣ) - тозаву озода: ихроҷи баландтар, аммо ҷудоӣ нисбат ба MIG заифтар аст.
Занҷираи таъминот: имзоҳои контейнер (cosign), тафтиши артефактҳо, назорати боркунии моделҳо.
Маълумот/вазнҳо: рамзгузорӣ дар диск, назорати дастрасӣ (ABAC/RBAC), нишонаҳо/регистрҳои ҳаши моделҳо.

Финҳо: арзиш, квотаҳо, автоскале

Ҳавзҳои гиреҳ: 'қатора' (талабот/захираҳо), 'хулоса' (омехта ба талабот + нуқта), 'exp' (spot-вазнин).
Устувории нуқта: гузаргоҳҳои зуд-зуд, мантиқи зуд оғозёбанда, навбати вулқон бо афзалиятҳо.
Захираҳо/Нақшаҳои амонатгузорӣ ба пойгоҳи устувор; гиреҳҳои холиро худкор хомӯш кунед.
Моделҳои андозагирии рост: ба ҷои модели "пурра" адаптерҳои квантӣ/LORA; Профилҳои MIG-ро дар зери SLA интихоб кунед.
Нақшаи буҷа: квотаҳои GPU-соат барои як гурӯҳ, "арзиши 1k дархостҳо/нишонаҳо".

Намунаҳо ва артефактҳои YAML

1) Профили MIG (консептуалӣ)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) Навбати вулқон барои омӯзиш

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) KEDA барои амиқи гардиши худкор

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

Рӯйхати санҷиши оғози кластери GPU

Харитаи топологияи NVL/IB; NIC/GPU дар як NUMA.
Ронандагон/CUDA пайваста, Оператор/Плагини дастгоҳ насб карда шудаанд.
Профилҳои MIG/буридани вақт ва квотаҳо барои ҷойҳои ном.
лӯлаи DDP/FSDP дар саҳна озмуда шуд; нуқтаҳои гузаргоҳ зуд мебошанд.
Тритон/v ҳадафҳои p95 ва TPS муқаррар карда шудаанд.
Огоҳии DCGM/Prometheus/Grafana + ECC/ҳарорат/хотира/TPS.
Сиёсати амният (PSP, cosign, obfuscation/назорат вазн).
FIN Ops: ҳавзҳои spot/ri, ҳисоботи токенҳои $/1k, бекоркунии худкор.

Хатогиҳои умумӣ

Омӯзиш ва хулоса дар ҳамон гиреҳҳо бе думҳо омехта карда мешаванд → GPU/IO ба ҳамдигар "дида мешавад".
Не нуқтаҳои назоратӣ ва мантиқи пешакӣ → аз даст додани пешрафт дар маҳал.
Набудани DCGM-ченакҳо → партофтан ва аз ҳад зиёд гарм кардани "нобино".

Нодида гирифтани topology NUMA/PCI

Профилҳои нодурусти MIG/time-slice → p99 ва профилҳои "Аз хотира".
HPA аз ҷониби CPU ба ҷои TPS/ниҳонӣ → миқёси дер.

Хусусияти бозӣ/fintech

Антифрауд/баҳодиҳӣ: Хулосаи SLA ≤ 50 ms p95 дар роҳҳои муҳим (пардохт/хулоса); нури модели "афтидан" -ро нигоҳ доред.
Тавсияҳо/фардикунонӣ: омӯзиши сиёсати/берун аз сиёсат дар шаб, хусусиятҳои онлайн - таъхири кам.
Ассистентҳои чат/RAG: Кэши мундариҷа, ихтисор кардани дархост, посбонҳо; шохиси ҷустуҷӯи векторҳо.

Қуллаҳо (гугирдҳо/мусобиқаҳо): моделҳои пеш аз гарм кардан/kv-кэш, зиёд кардани min

Ҷамъ

Вақте ки сахтафзор (HBM/NVL/ink/IB), матритсаи нармафзор (CUDA/NCCL), банақшагирӣ (MIG, навбат, думҳо), маълумот (лӯлаи тез/GDS), мушоҳидашаванда (DCS) воқеан самаранок мешаванд GM/SLO) ва арзиш (Fin-Ops/квотаҳо) дар консерт кор мекунанд. Инро ба сиёсати IAC ва кластер ворид кунед - ва шумо суръати пешгӯишавандаи омӯзиш, хулосаи устувори пасти p95 ва иқтисодиёти шаффофи GPU ба даст меоред.