GH GambleHub

Инфрасохтори AI ва ҳавзҳои GPU

(Қисм: Технология ва инфрасохтор)

Хулосаи мухтасар

Production-AI "як модел дар як сервер" нест, балки кластери гиреҳҳои GPU, ҳавзҳои муштараки суръатбахш, хидматрасонии ягона, маълумот/хусусият, мушоҳида ва идоракунии хароҷот. Барои IGaming, ин дар вақти воқеӣ муҳим аст: зидди қаллобӣ, фардикунонӣ, чатботҳо, ассистентҳои LLM, тавсияҳои бозӣ/саҳҳомӣ. Хиштҳои асосӣ: Кубернетес/Слурм барои банақшагирӣ, ҷудокунии сарбории корӣ, шабакаи баландсуръат (100/200/400G бо RDMA), нигоҳдории зуд, MLO-ҳои баркамол ва SLO-и "оҳану бетонӣ".

1) Харитаи меъморӣ

Қабатҳо:

1. Кластери компютерӣ: гиреҳҳои GPU (синфҳои A/H, AMD/ROC .m, Intel Gaudi ва ғайра), гиреҳҳои CPU барои коркард/хусусият.

2. Шабака: 100G + Ethernet/IB, RDMA (Ro

3. Нигоҳдорӣ: объект (S3-муштарак), тақсимшудаи POSIX (Ceph/grid), NVM-e-scratch маҳаллӣ.

4. Маълумот/хусусиятҳо: fichester (онлайн/офлайн), пойгоҳи додаҳои векторӣ (ANN), кэш (Редис), навбатҳо.

5. ML-платформа: феҳристи артефактҳо ва моделҳо, қубурҳо (CI/CD), назорати версия, хусусиятҳо ҳамчун код.

6. Қабати хидматрасонӣ: Triton/KS berve/vLLM/text-generation-inference (TGI), A/V/canary-deploy, autoresize.

7. Идоракунӣ ва амният: PII, асрори, аудит, сиёсати содирот, литсензияҳои вазн/маълумот.

Борҳои маъмулӣ:
  • Баҳодиҳии онлайн (саҳ95 ≤ 50-150 мс) - зидди қаллобӣ, тавсияҳо, рейтинг.
  • LLM-хизмат (саҳ. 95 ≤ 200-800 мс барои 128-512 токен) - чат/агентҳо/таклифҳо.
  • Таҳлили гурӯҳӣ/омӯзиши иловагӣ - тирезаҳои шабона, ченакҳои офлайнӣ.
  • Мубориза/мутобиқшавӣ - давра ба давра, бо афзалият нисбат ба онлайн.

2) Ҳавзҳо ва банақшагирии GPU

Модели ҳавз

Хизматрасонии ҳавз: дархостҳои кӯтоҳ, қассобии баланд, SLO-ҳои қатъӣ.
Омӯзиш/ҳавзи ниҳоӣ: Ҷойҳои дароз, омӯзиши тақсимшуда (DDP).
Ҳавзи "R & D/Experiments": квотаҳо/маҳдудиятҳо, имтиёз иҷозат дода мешавад.
Ҳавзи коркарди пас аз CPU/Pre-/: нормализатсия, токенизатсия, rerank дар CPU.

Барномасозон

Kubernetes (+ плагин-дастгоҳ, Nodefeature-Discovery, taints/tolerations, Prioriatial

Slurm (аксар вақт барои омӯзиши HPC) - бо K8s тавассути коргарони алоҳида омехта кардан мумкин аст.
Ҳиссаи одилона ва квотаҳо: квотаҳои фазои ном барои GPU, CPU, хотира; "бонкҳо" GPU-соат; маҳдудиятҳо дар фазои ном/лоиҳа.

Тақсимоти GPU

MIG (Multi-Instance GPU): буридани суръатбахш ба иловаро ҷудошуда (барои серфинг/бисёрҳуҷрагӣ).
MPS: Мубодилаи SM барои вазифаҳои хурд (мудохилаи монитор).
NVL ‌ ink/PCI ‌ e: Ҷадвали огоҳии топологияро баррасӣ кунед.

Намунаи эзоҳҳои (мафҳуми) K8s:
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Фаъолияти шабака ва сайтҳо

RDMA (RoCEv2) барои ҷудошавии NCCL; Танзимоти ECN/PFC, ҷудокунии синфҳои ҳаракат.
Маҳаллисозӣ: омӯзиш дар дохили як "завод" (pod/host/optics), хидматрасонӣ - ба корбар наздиктар (канор/минтақа).
Назорати Conest: профилҳои танзимшуда, чаҳорчӯбаҳои jumbo, интерфейсҳои pin-ning.

4) Нигоҳдорӣ ва маълумот

Нигоҳдории вазн/артефакт: объект (версия, тағйирнопазирӣ).
Маълумотҳо/хусусиятҳо: Lakehouse (Delta/Iceberg/Hudi) + offline fichester; онлайн-fichestor (миллисекунд SLA-ҳо).
Пойгоҳи додаҳои векторӣ (ANN): Faiss/ScaNN/суръатбахш ё муҳаррикҳои вектории фурӯшанда; shardiness, HNSW/IVF, нусхабардорӣ.
Кэши маҳаллии NVM je: гарм кардани миқёс/ҷобаҷогузорӣ барои оғози хунук.

5) Моделҳо

Чорчӯбаҳо

Triton Inference Server (мултимодел, бисёр вақт, қассобии динамикӣ).
KS berve (K8s-native, autoscaling HPA/KPA, канарӣ).
vLLM/TGI барои токенизатсияи LLM ва рамзгузории баландсифат (пейджинг-диққат, сарбории кэш KV).
ONNX Runtime/TensorRT-LLM - барои таҳия ва суръатбахшӣ.

Оптимизатсия

Миқдор: INT8/FP8/INT4 (фоиз/калибрченкунӣ, AWQ/GPTQ) - онлайн бодиққат, сифатро чен кунед.
Композитсияи графикӣ: TensorRT, Torchinductor/XLA, ядроҳои омехта.
Бутчинг/микробатчинг: динамикӣ ва статикӣ; для LLM - бастабандии доимӣ.
Кэши KV: мубодила байни дархостҳо, офлайн дар CPU/NVM je бо заминаҳои дароз.
Рамзгузории спекулятивӣ: лоиҳаи модел + санҷанда барои суръат бахшидани истеҳсоли токен.
Маҳдудиятҳои токен/контекст, таваққуфи барвақт, калимаҳо, буҷаи вақт барои дархост.

Сиёсати густариш

A/B, канарӣ, соя - муқоисаи ченакҳои ниҳоӣ/сифат/тиҷорат.
Сабзи кабуд - вақти корӣ нест.
Бозгашт ба SLO/хатогиҳо.

6) Омӯзиш/Мубориза

DDP/FSDP/Ze

Нуқтаҳои назоратӣ: афзоиш/пурра, басомад vs I/O.
Дақиқии омехта: bf16/fp16 + миқёси талафот; устувории профил.
Sharding Dataset: итератори ягона, нусхабардорӣ дар гиреҳҳо.
Афзалиятҳо: ҷойҳои кории қатъшаванда (афзалиятнок) ба манфиати серфинг.
Қубурҳои мустақил: додаҳо → қатора → eval → register → пешрафт дар PROD мувофиқи меъёрҳои дарвоза.

7) MLO ва платформа

Феҳристи моделҳо: версияҳо, имзоҳо, вобастагӣ, литсензия/ҳуқуқи истифодаи миқёс.
Моделҳои CI/CD: санҷишҳои мутобиқат, регрессияи фаъолият, дарвозаҳои сифат, ҷойгиркунии бехатар.
Fichestor: мувофиқати офлайнӣ/онлайн (паритети хусусият), TTL ва backfill.
Маълумот/Насли моделӣ: пайгирӣ аз маҷмӯа то гузориш/озмоиш.
Феҳристи дархостҳо/қолибҳо барои LLM (версия).

8) Мушоҳида ва SLO

Андозагирии онлайн:
  • Latency p50/p95/p99, токенҳо/с, ҷойгиршавии гурӯҳ, интизории навбат, ҷойгиршавии GPU-util/SM, хотира, хатогиҳо.
  • Хусусиятҳои LLM: Нишонаҳои I/O, дарозии миёнаи посух, фоизи нокомӣ аз рӯи маҳдудиятҳо, зарбаи кэш KV.
  • Сифат: санҷишҳои регрессияи автоматӣ (офлайнӣ), телеметрияи онлайн (парчамҳои мундариҷа, заҳролудшавӣ, дақиқии барориши намунаҳои тиллоӣ).
  • Бизнес SLO: табдили фардикунонӣ, дақиқии зидди қаллобӣ, нигоҳдорӣ.

Огоҳиҳо: афзоиши p99/навбат, тарки токенҳо/с, таназзули пуркунии партия, VRAM/PCI-e-дросселҳо, афзоиши нокомии суръат.

9) Амният, риоя ва махфият

Маълумоти PII/молиявӣ: тақсимоти ҳисобҳо ва маълумот аз рӯи минтақа, рамзгузорӣ дар истироҳат/транзит, токенизатсия.
Асрҳо/Калидҳо: Менеҷери KMS/Асрҳо; истисно нигаҳдорӣ дар тасвирҳо/рамз.
Сиёсати баромади LLM: филтрҳои амниятӣ, гурӯҳҳои сурх, сабти дархостҳо/посухҳо (бо беном).
Иҷозатномаҳо: риояи литсензияҳо барои маҷмӯаи маълумотҳо/вазнҳо; "no-distribute "/маҳдудиятҳои тиҷоратӣ.
Ҷудокунии иҷорагир: фазои ном-RBAC, шабакаҳо, иловаро MIG, маҳдудиятҳо ва квотаҳо.

10) Арзиш ва Finops

Банақшагирии қобилият: профилҳои сарборӣ (RPS, токенҳо/сек), "думҳо" -и мусобиқаҳо ва маъракаҳо.
Захира/Нуқта: ҳавзҳои омехта (ҳифзшуда + нуқта/афзалиятнок) бо барқарор кардани вазифаҳо ва нуқтаҳои назоратӣ.
Autoscale: HPA/KPA аз ҷониби RPS/умқи навбат/GPU-util; "оғози гарм" бо тарозуи гармшуда.
Зоопаркии моделӣ: Кам кардани имконот; Ба ҷои такрори пурра, мутобиқсозиро истифода баред (LoRA/PEFT).
Кэш: воридкунӣ/натиҷаҳои дархостҳои гарон, мубодилаи кэш барои KV барои LLM.
Оптимизатсияи нишонаҳо: фишурдани таклифҳо, насли афзоишёфтаи ҷустуҷӯ (RAG), rerank пеш аз насл.

11) Бисёр минтақаҳо, HA ва DR

Серфинги фаъол/фаъол ба корбар наздиктар аст, масири глобалӣ (дар асоси дермонӣ).
Такрори миқёс ва хусусиятҳо бо санҷиши якпорчагӣ; гарм кардани кэшҳо ҳангоми релизҳо.
Нақшаи DR: аз даст додани AZ/минтақа, эвакуатсия ба ҳавзи эҳтиётӣ, назорати вобастагӣ аз феҳристи мутамарказ.
Рӯзҳои бесарусомонӣ: гиреҳи GPU/домени шабака/санҷиши нокомии анбор.

12) Қолибҳои конфигуратсия (мафҳумҳо)

Тритон - қассобии динамикӣ:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KS berve - Канария:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - Оғоз (ғояҳо):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) Хусусияти LLM: RAG ва ҳалқаи ҷустуҷӯ

Индексатсия: chanking, дохилкунӣ, ANN-sharding аз ҷониби 'иҷорагир/locale'.
Rerank: Модели буридаи сабуки CPU/GPU барои беҳтар кардани дақиқӣ.
Кэши дархостҳо/контекстҳо: dedup, canonicalization.
Сиёсати иқтибос/масъулият барои соҳаҳои ҳассос (CCP/қоидаҳо).

14) Рӯйхати назорати амалисозӣ

1. Гирифтани SLO (p95 latency/tokens/s, мавҷудият) ва профилҳои сарборӣ.
2. Кластерро ба ҳавзҳо тақсим кунед (хидматрасонӣ/қатора/R & D), квота/афзалиятҳоро ворид кунед.
3. Фаъол кардани ҷадвали RDMA/NCCL ва аз ҷиҳати топологӣ огоҳ.
4. Насб кардани анборҳо: миқёс, маҷмӯаи маълумотҳо, fichester (онлайн/офлайн), пойгоҳи додаҳои векторӣ.
5. Стеки хизматиро интихоб кунед (Triton/KS berve/vLLM), илова кардани қассоб/KV кэш/миқдор.
6. Феҳристи моделҳо, CI/CD, ҷойгиркунии канарӣ/сояиро иҷро кунед.
7. Мушоҳидаҳоро гузоред: система + ченакҳои бизнес, сифат, пайгирӣ.
8. Сиёсати амният/PII, литсензия, аудитро ворид кунед.
9. TCO-ро оптимизатсия кунед: захирашуда + нуқта, autoscale, кэш, PEFT ба ҷои клонҳои пурра.
10. HA/DR омода кунед ва рӯзи бозӣ дошта бошед.

15) Антипаттернҳо

"Як GPU калон барои ҳама" бидуни ҳавзҳо ва афзалиятҳо.
Набудани қассобии динамикӣ ва кэши КВ барои LLM → таркиши p99 ва арзиш.
Омӯзиш ва хидмат дар як ҳавз бидуни имтиёз → ҳодисаҳои SLO.
Телеметрияи сифр/бехатарӣ → таназзули нозук ва хатарҳо.
Монолитҳои мутамарказ бидуни феҳристи фишестер/модел § репродуктивӣ нестанд.
Нодида гирифтани литсензияҳои миқёс/маълумот.

Хулоса

Инфраструктураи бомуваффақияти AI банақшагирии оқилонаи ҳавзҳои GPU, шабакаи баланд ва нигаҳдории дуруст, хидматрасонии самаранок (қассоб, кэш, миқдор, таркиб), MLO-ҳои баркамол ва SLO-ҳои қатъиро дар бар мегирад. Дар якҷоягӣ бо амният/PII, бисёрҷонибаи HA/DR ва Finops ботаҷриба, платформа p99 устувор, $/дархости назоратшаванда ва татбиқи босуръати моделҳои нав - аз қаллобӣ то фардикунонӣ ва ёварони LLM медиҳад.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.