Инфрасохтори AI ва ҳавзҳои GPU

(Қисм: Технология ва инфрасохтор)

Хулосаи мухтасар

Production-AI "як модел дар як сервер" нест, балки кластери гиреҳҳои GPU, ҳавзҳои муштараки суръатбахш, хидматрасонии ягона, маълумот/хусусият, мушоҳида ва идоракунии хароҷот. Барои IGaming, ин дар вақти воқеӣ муҳим аст: зидди қаллобӣ, фардикунонӣ, чатботҳо, ассистентҳои LLM, тавсияҳои бозӣ/саҳҳомӣ. Хиштҳои асосӣ: Кубернетес/Слурм барои банақшагирӣ, ҷудокунии сарбории корӣ, шабакаи баландсуръат (100/200/400G бо RDMA), нигоҳдории зуд, MLO-ҳои баркамол ва SLO-и "оҳану бетонӣ".

1) Харитаи меъморӣ

Қабатҳо:

1. Кластери компютерӣ: гиреҳҳои GPU (синфҳои A/H, AMD/ROC .m, Intel Gaudi ва ғайра), гиреҳҳои CPU барои коркард/хусусият.

2. Шабака: 100G + Ethernet/IB, RDMA (Ro

3. Нигоҳдорӣ: объект (S3-муштарак), тақсимшудаи POSIX (Ceph/grid), NVM-e-scratch маҳаллӣ.

4. Маълумот/хусусиятҳо: fichester (онлайн/офлайн), пойгоҳи додаҳои векторӣ (ANN), кэш (Редис), навбатҳо.

5. ML-платформа: феҳристи артефактҳо ва моделҳо, қубурҳо (CI/CD), назорати версия, хусусиятҳо ҳамчун код.

6. Қабати хидматрасонӣ: Triton/KS berve/vLLM/text-generation-inference (TGI), A/V/canary-deploy, autoresize.

7. Идоракунӣ ва амният: PII, асрори, аудит, сиёсати содирот, литсензияҳои вазн/маълумот.

Борҳои маъмулӣ:

Баҳодиҳии онлайн (саҳ95 ≤ 50-150 мс) - зидди қаллобӣ, тавсияҳо, рейтинг.
LLM-хизмат (саҳ. 95 ≤ 200-800 мс барои 128-512 токен) - чат/агентҳо/таклифҳо.
Таҳлили гурӯҳӣ/омӯзиши иловагӣ - тирезаҳои шабона, ченакҳои офлайнӣ.
Мубориза/мутобиқшавӣ - давра ба давра, бо афзалият нисбат ба онлайн.

2) Ҳавзҳо ва банақшагирии GPU

Модели ҳавз

Хизматрасонии ҳавз: дархостҳои кӯтоҳ, қассобии баланд, SLO-ҳои қатъӣ.
Омӯзиш/ҳавзи ниҳоӣ: Ҷойҳои дароз, омӯзиши тақсимшуда (DDP).
Ҳавзи "R & D/Experiments": квотаҳо/маҳдудиятҳо, имтиёз иҷозат дода мешавад.
Ҳавзи коркарди пас аз CPU/Pre-/: нормализатсия, токенизатсия, rerank дар CPU.

Барномасозон

Kubernetes (+ плагин-дастгоҳ, Nodefeature-Discovery, taints/tolerations, Prioriatial

Slurm (аксар вақт барои омӯзиши HPC) - бо K8s тавассути коргарони алоҳида омехта кардан мумкин аст.
Ҳиссаи одилона ва квотаҳо: квотаҳои фазои ном барои GPU, CPU, хотира; "бонкҳо" GPU-соат; маҳдудиятҳо дар фазои ном/лоиҳа.

Тақсимоти GPU

MIG (Multi-Instance GPU): буридани суръатбахш ба иловаро ҷудошуда (барои серфинг/бисёрҳуҷрагӣ).
MPS: Мубодилаи SM барои вазифаҳои хурд (мудохилаи монитор).
NVL ‌ ink/PCI ‌ e: Ҷадвали огоҳии топологияро баррасӣ кунед.

Намунаи эзоҳҳои (мафҳуми) K8s:

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Фаъолияти шабака ва сайтҳо

RDMA (RoCEv2) барои ҷудошавии NCCL; Танзимоти ECN/PFC, ҷудокунии синфҳои ҳаракат.
Маҳаллисозӣ: омӯзиш дар дохили як "завод" (pod/host/optics), хидматрасонӣ - ба корбар наздиктар (канор/минтақа).
Назорати Conest: профилҳои танзимшуда, чаҳорчӯбаҳои jumbo, интерфейсҳои pin-ning.

4) Нигоҳдорӣ ва маълумот

Нигоҳдории вазн/артефакт: объект (версия, тағйирнопазирӣ).
Маълумотҳо/хусусиятҳо: Lakehouse (Delta/Iceberg/Hudi) + offline fichester; онлайн-fichestor (миллисекунд SLA-ҳо).
Пойгоҳи додаҳои векторӣ (ANN): Faiss/ScaNN/суръатбахш ё муҳаррикҳои вектории фурӯшанда; shardiness, HNSW/IVF, нусхабардорӣ.
Кэши маҳаллии NVM je: гарм кардани миқёс/ҷобаҷогузорӣ барои оғози хунук.

5) Моделҳо

Чорчӯбаҳо

Triton Inference Server (мултимодел, бисёр вақт, қассобии динамикӣ).
KS berve (K8s-native, autoscaling HPA/KPA, канарӣ).
vLLM/TGI барои токенизатсияи LLM ва рамзгузории баландсифат (пейджинг-диққат, сарбории кэш KV).
ONNX Runtime/TensorRT-LLM - барои таҳия ва суръатбахшӣ.

Оптимизатсия

Миқдор: INT8/FP8/INT4 (фоиз/калибрченкунӣ, AWQ/GPTQ) - онлайн бодиққат, сифатро чен кунед.
Композитсияи графикӣ: TensorRT, Torchinductor/XLA, ядроҳои омехта.
Бутчинг/микробатчинг: динамикӣ ва статикӣ; для LLM - бастабандии доимӣ.
Кэши KV: мубодила байни дархостҳо, офлайн дар CPU/NVM je бо заминаҳои дароз.
Рамзгузории спекулятивӣ: лоиҳаи модел + санҷанда барои суръат бахшидани истеҳсоли токен.
Маҳдудиятҳои токен/контекст, таваққуфи барвақт, калимаҳо, буҷаи вақт барои дархост.

Сиёсати густариш

A/B, канарӣ, соя - муқоисаи ченакҳои ниҳоӣ/сифат/тиҷорат.
Сабзи кабуд - вақти корӣ нест.
Бозгашт ба SLO/хатогиҳо.

6) Омӯзиш/Мубориза

DDP/FSDP/Ze

Нуқтаҳои назоратӣ: афзоиш/пурра, басомад vs I/O.
Дақиқии омехта: bf16/fp16 + миқёси талафот; устувории профил.
Sharding Dataset: итератори ягона, нусхабардорӣ дар гиреҳҳо.
Афзалиятҳо: ҷойҳои кории қатъшаванда (афзалиятнок) ба манфиати серфинг.
Қубурҳои мустақил: додаҳо → қатора → eval → register → пешрафт дар PROD мувофиқи меъёрҳои дарвоза.

7) MLO ва платформа

Феҳристи моделҳо: версияҳо, имзоҳо, вобастагӣ, литсензия/ҳуқуқи истифодаи миқёс.
Моделҳои CI/CD: санҷишҳои мутобиқат, регрессияи фаъолият, дарвозаҳои сифат, ҷойгиркунии бехатар.
Fichestor: мувофиқати офлайнӣ/онлайн (паритети хусусият), TTL ва backfill.
Маълумот/Насли моделӣ: пайгирӣ аз маҷмӯа то гузориш/озмоиш.
Феҳристи дархостҳо/қолибҳо барои LLM (версия).

8) Мушоҳида ва SLO

Андозагирии онлайн:

Latency p50/p95/p99, токенҳо/с, ҷойгиршавии гурӯҳ, интизории навбат, ҷойгиршавии GPU-util/SM, хотира, хатогиҳо.
Хусусиятҳои LLM: Нишонаҳои I/O, дарозии миёнаи посух, фоизи нокомӣ аз рӯи маҳдудиятҳо, зарбаи кэш KV.
Сифат: санҷишҳои регрессияи автоматӣ (офлайнӣ), телеметрияи онлайн (парчамҳои мундариҷа, заҳролудшавӣ, дақиқии барориши намунаҳои тиллоӣ).
Бизнес SLO: табдили фардикунонӣ, дақиқии зидди қаллобӣ, нигоҳдорӣ.

Огоҳиҳо: афзоиши p99/навбат, тарки токенҳо/с, таназзули пуркунии партия, VRAM/PCI-e-дросселҳо, афзоиши нокомии суръат.

9) Амният, риоя ва махфият

Маълумоти PII/молиявӣ: тақсимоти ҳисобҳо ва маълумот аз рӯи минтақа, рамзгузорӣ дар истироҳат/транзит, токенизатсия.
Асрҳо/Калидҳо: Менеҷери KMS/Асрҳо; истисно нигаҳдорӣ дар тасвирҳо/рамз.
Сиёсати баромади LLM: филтрҳои амниятӣ, гурӯҳҳои сурх, сабти дархостҳо/посухҳо (бо беном).
Иҷозатномаҳо: риояи литсензияҳо барои маҷмӯаи маълумотҳо/вазнҳо; "no-distribute "/маҳдудиятҳои тиҷоратӣ.
Ҷудокунии иҷорагир: фазои ном-RBAC, шабакаҳо, иловаро MIG, маҳдудиятҳо ва квотаҳо.

10) Арзиш ва Finops

Банақшагирии қобилият: профилҳои сарборӣ (RPS, токенҳо/сек), "думҳо" -и мусобиқаҳо ва маъракаҳо.
Захира/Нуқта: ҳавзҳои омехта (ҳифзшуда + нуқта/афзалиятнок) бо барқарор кардани вазифаҳо ва нуқтаҳои назоратӣ.
Autoscale: HPA/KPA аз ҷониби RPS/умқи навбат/GPU-util; "оғози гарм" бо тарозуи гармшуда.
Зоопаркии моделӣ: Кам кардани имконот; Ба ҷои такрори пурра, мутобиқсозиро истифода баред (LoRA/PEFT).
Кэш: воридкунӣ/натиҷаҳои дархостҳои гарон, мубодилаи кэш барои KV барои LLM.
Оптимизатсияи нишонаҳо: фишурдани таклифҳо, насли афзоишёфтаи ҷустуҷӯ (RAG), rerank пеш аз насл.

11) Бисёр минтақаҳо, HA ва DR

Серфинги фаъол/фаъол ба корбар наздиктар аст, масири глобалӣ (дар асоси дермонӣ).
Такрори миқёс ва хусусиятҳо бо санҷиши якпорчагӣ; гарм кардани кэшҳо ҳангоми релизҳо.
Нақшаи DR: аз даст додани AZ/минтақа, эвакуатсия ба ҳавзи эҳтиётӣ, назорати вобастагӣ аз феҳристи мутамарказ.
Рӯзҳои бесарусомонӣ: гиреҳи GPU/домени шабака/санҷиши нокомии анбор.

12) Қолибҳои конфигуратсия (мафҳумҳо)

Тритон - қассобии динамикӣ:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KS berve - Канария:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - Оғоз (ғояҳо):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) Хусусияти LLM: RAG ва ҳалқаи ҷустуҷӯ

Индексатсия: chanking, дохилкунӣ, ANN-sharding аз ҷониби 'иҷорагир/locale'.
Rerank: Модели буридаи сабуки CPU/GPU барои беҳтар кардани дақиқӣ.
Кэши дархостҳо/контекстҳо: dedup, canonicalization.
Сиёсати иқтибос/масъулият барои соҳаҳои ҳассос (CCP/қоидаҳо).

14) Рӯйхати назорати амалисозӣ

1. Гирифтани SLO (p95 latency/tokens/s, мавҷудият) ва профилҳои сарборӣ.
2. Кластерро ба ҳавзҳо тақсим кунед (хидматрасонӣ/қатора/R & D), квота/афзалиятҳоро ворид кунед.
3. Фаъол кардани ҷадвали RDMA/NCCL ва аз ҷиҳати топологӣ огоҳ.
4. Насб кардани анборҳо: миқёс, маҷмӯаи маълумотҳо, fichester (онлайн/офлайн), пойгоҳи додаҳои векторӣ.
5. Стеки хизматиро интихоб кунед (Triton/KS berve/vLLM), илова кардани қассоб/KV кэш/миқдор.
6. Феҳристи моделҳо, CI/CD, ҷойгиркунии канарӣ/сояиро иҷро кунед.
7. Мушоҳидаҳоро гузоред: система + ченакҳои бизнес, сифат, пайгирӣ.
8. Сиёсати амният/PII, литсензия, аудитро ворид кунед.
9. TCO-ро оптимизатсия кунед: захирашуда + нуқта, autoscale, кэш, PEFT ба ҷои клонҳои пурра.
10. HA/DR омода кунед ва рӯзи бозӣ дошта бошед.

15) Антипаттернҳо

"Як GPU калон барои ҳама" бидуни ҳавзҳо ва афзалиятҳо.
Набудани қассобии динамикӣ ва кэши КВ барои LLM → таркиши p99 ва арзиш.
Омӯзиш ва хидмат дар як ҳавз бидуни имтиёз → ҳодисаҳои SLO.
Телеметрияи сифр/бехатарӣ → таназзули нозук ва хатарҳо.
Монолитҳои мутамарказ бидуни феҳристи фишестер/модел § репродуктивӣ нестанд.
Нодида гирифтани литсензияҳои миқёс/маълумот.

Хулоса

Инфраструктураи бомуваффақияти AI банақшагирии оқилонаи ҳавзҳои GPU, шабакаи баланд ва нигаҳдории дуруст, хидматрасонии самаранок (қассоб, кэш, миқдор, таркиб), MLO-ҳои баркамол ва SLO-ҳои қатъиро дар бар мегирад. Дар якҷоягӣ бо амният/PII, бисёрҷонибаи HA/DR ва Finops ботаҷриба, платформа p99 устувор, $/дархости назоратшаванда ва татбиқи босуръати моделҳои нав - аз қаллобӣ то фардикунонӣ ва ёварони LLM медиҳад.

Инфрасохтори AI ва ҳавзҳои GPU

Хулосаи мухтасар

Барномасозон

Тақсимоти GPU

Оптимизатсия

Сиёсати густариш

Хулоса

Тамос гиред

Алоқаи зуд

Видео ба зудӣ нав карда мешавад

Мо ҳоло хеле машғули лоиҳаҳо ҳастем