AI инфраструктурасы жана GPU бассейндери

(Бөлүк: Технология жана инфраструктура)

Кыскача резюме

Production-AI - бул "бир серверде бир модель" эмес, GPU түйүндөрүнүн, жалпы ылдамдаткычтар пулдарынын, бирдиктүү сервингдин, маалыматтардын/функциялардын, байкоо жана наркты башкаруунун кластери. iGaming үчүн бул реалдуу убакытта маанилүү болуп саналат: антифрод, персоналдаштыруу, чат боттору, LLM жардамчылары, оюндар/акциялар боюнча сунуштар. Негизги кирпичтер: Kubernetes/Slurm пландаштыруу үчүн, жүгүн изоляциялоо, жогорку ылдамдыктагы тармак (RDMA менен 100/200/400G), тез сактоо, жетилген MLOps, жана "темир-бетон" SLO.

1) Архитектуралык карта

Катмарлар:

1. Эсептөө кластери: GPU-ноддор (A/H-класстар, AMD/ROCm, Intel Gaudi ж.б.), Preprocessing/fich үчүн CPU-ноддор.

2. Тармак: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-топология, QoS.

3. Сактоо: объект (S3- .) , POSIX бөлүштүрүлгөн (Ceph/grid), жергиликтүү NVMe-scratch.

4. Маалыматтар/ийгиликтер: fichestor (online/offline), Vector DD (ANN), кэш (Redis), кезек.

5. ML-платформа: артефакттардын жана моделдердин реестри, пайплайндар (CI/CD), версияларды көзөмөлдөө, код катары чичи.

6. Кызмат катмары: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, autoresaise.

7. Говернанс жана коопсуздук: PII, сырлар, аудит, экспорт саясаты, тараза/дата лицензиялары.

Типтүү жүктөр:

Онлайн эсеби (p95 ≤ 50-150 ms) - антифрод, сунуштар, рейтинги.
LLM-Serving (p95 ≤ 200-800 ms 128-512 токендер) - чат/агенттер/маалымат.
Пакеттик аналитика/кошумча окутуу - түнкү терезелер, оффлайн-метриктер.
Файнтюнинг/адаптация - мезгил-мезгили менен, онлайндан төмөн артыкчылык менен.

2) GPU бассейндер жана пландаштыруу

Бассейн модели

"Сервинг" бассейни: кыска суроолор, жогорку батчинг, катуу SLO.
Pool "Training/Finntyuning": узун Jobs, бөлүштүрүлгөн окутуу (DDP).
Pool "R & D/Эксперименттер": квоталар/лимиттер, алдын ала уруксат берилген.
"CPU/Pre-/Post-processing" бассейни: нормалдаштыруу, токендештирүү, CPU боюнча rerank.

Пландоо

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (көбүнчө HPC-тренинг үчүн) - жеке workers аркылуу K8s менен аралаштырууга болот.
Fair-Sher жана квота: namespace-GPU боюнча квота, CPU, эс; "банктар" GPU-саат; неймспейс/долбоор боюнча лимиттер.

GPU партиялаштыруу

MIG (Multi-Instance GPU): жылмаланган тилкелерге тездеткич кесүү (Servving/Multi-тенанттуулук үчүн).
MPS: чакан тапшырмалар үчүн SM бөлүшүү (кийлигишүү үчүн).
NVLink/PCIe: Pods пиннинг топологиясын эске алуу (Topology Aware Scheduling).

K8s-аннотацияларынын мисалы (түшүнүк):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Тармак жана түйүндөр аралык аткаруу

RDMA (RoCEv2) NCCL үчүн; ECN/PFC жөндөөлөрү, трафик класстарын изоляциялоо.
Локализация: бир "фабрика" ичинде тренинг (pod/host/оптика), сервинг - колдонуучуга жакын (edge/аймак).
Congest Control: tuned Profiles, jumbo frames, pin-ning интерфейстери.

4) Сактоо жана маалыматтар

Тараза/артефакттарды сактоо: объект (версиялоо, immutability).
Dataset/Fich: Lakehouse (Delta/Iceberg/Hudi) + offline-Fichestor; онлайн fichestor (миллисекунддук SLA).
Вектордук БД (ANN): Faiss/ScaNN/акселераторлор, же вендордук вектордук кыймылдаткычтар; charding, HNSW/IVF, репликация.
Жергиликтүү NVMe-кэш: муздак баштоо үчүн тараза/эмбеддинг жылытуу.

5) Сервинг моделдер

Фреймворк

Triton Inference Server (multimodel, multiruntime, динамикалык батчинг).
KServe (K8s-жергиликтүү, autoscaling HPA/KPA, Канар).
vLLM/TGI үчүн LLM токенизациялоо жана жогорку өндүрүмдүү декодинг (paged-attention, KV-кэш оффлоуд).
ONNX Runtime/TensorRT-LLM - компиляция жана тездетүү үчүн.

Оптималдаштыруу

Kvanting: INT8/FP8/INT4 (кагаз/калибрлөө, AWQ/GPTQ) - онлайн кылдаттык менен, сапатын өлчөө.
Графанын компиляциясы: TensorRT, TorchInductor/XLA, fused-kernels.
Батчинг/микробатчинг: динамикалык жана статикалык; для LLM — continuous batching.
KV-кэш: суроо-талаптардын ортосунда бөлүшүү, узак контекстте CPU/NVMe боюнча оффлоуд.
Spekulative Decoding: Draft модели + токен-айтылуу тездетүү үчүн текшерүү.
Токендердин/контексттин лимиттери, эрте токтотуу, токтоо сөздөрү, суроо-талап боюнча time-budget.

Деплой саясаты

A/B, канарлар, shadow - жашыруун/сапаты/бизнес-метрика салыштыруу.
Блю-грин - даунтайм жок.
SLO/каталар боюнча Rollback.

6) Окутуу/коопсуздук

DDP/FSDP/ZeRO: бөлүштүрүлгөн эс/градиенттер, NVLink/топология эсепке алуу.
Чекене пункттар: инкременталдык/толук, жыштык vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; туруктуулукту профилдөө.
Датасет-шардинг: бирдей итератор, түйүндөр боюнча репликация.
Артыкчылыктары: үзүлүүчү Jobs (preemptible) Serving пайдасына.
Автономдуу пайплайндар: data → train → eval → реестр → PRODда жылдыруу.

7) MLOps жана платформа

Моделдердин реестри: версиялар, кол тамгалар, көз карандылык, лицензиялар/таразаларды колдонуу укугу.
CI/CD моделдер: шайкештик тесттер, аткаруу-регрессия, quality-гейт, коопсуз депла.
Фичестор: оффлайн/онлайн консистенттүүлүк (feature parity), TTL жана backfill.
Data/Model Lineage: отчет/эксперимент үчүн datasetten tracking.
LLM үчүн өнөр жай/үлгү каталогу (чыгаруу).

8) Байкоо жана SLO

Онлайн метрика:

Латентность p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, эстутум, каталар.
LLM-өзгөчөлүгү: киргизүү/чыгаруу үчүн токендер, жооптун орточо узундугу, лимиттер боюнча мүчүлүштүктөрдүн үлүшү, кэш-хит KV.
Сапат: автоматтык регрессиялык тесттер (оффлайн), онлайн телеметрия (контент желектери, уулуулугу, алтын үлгүлөрдөгү чыгаруунун тактыгы).
Бизнес-SLO: жекелештирүү конверсиясы, антифрод тактыгы, сактоо.

Alerty: P99/кезек өсүшү, Токендердин/s кулашы, batch-fill деградациясы, VRAM/PCIe-throttle түгөнүшү, rate-limit мүчүлүштүктөрдүн өсүшү.

9) Коопсуздук, комплаенс жана купуялык

PII/каржылык маалыматтар: региондор боюнча эсептөө жана маалыматтарды сегменттөө, тынч/транзитте шифрлөө, токенизация.
Сырлар/ачкычтар: KMS/Secrets Manager; сүрөттөрдө/коддо сактоону жокко чыгаруу.
LLM чыгаруу саясаты: коопсуздук чыпкалары, red-teaming, promppt/жоопторду каттоо (анонимдештирүү менен).
Лицензиялар: датасеттерге/салмакка лицензиялардын шайкештиги; "no-redistribute "/коммерциялык чектөөлөр.
Тенанттардын изоляциясы: namespace-RBAC, тармактар, MIG тилкелери, лимиттер жана квоталар.

10) Наркы жана finops

Capacity-пландаштыруу: жүктөө Profiles (RPS, токендер/сек), "куйруктары" турнир жана кампаниялар.
Reserve/Spot: аралаш бассейндер (reserved + spot/preemptible) кайра тапшырмалар жана текшерүү пункттары менен.
Autoscale: HPA/KPA RPS/queue depth/GPU-util; жылытылган таразалар менен "жылуу баштоо".
модель зоопарк: параметрлердин санын кыскартуу; толук кайталоонун ордуна адаптацияны (LoRA/PEFT) колдонуңуз.
Кэш: Эмбеддинг/кымбат суроо-талаптардын натыйжалары, LLM үчүн KV кэш бөлүшүү.
Токендерди оптималдаштыруу: өнөр жай түйүндөрүн кысуу, retrieval-augmented generation (RAG), генерацияга чейин rerank.

11) Multiregion, HA жана DR

Active/Active Serving колдонуучуга жакын, глобалдык роутинг (latency-based).
Таразаларды жана фичтерди бүтүндүгүн текшерүү менен репликациялоо; бошотуу учурунда кэш жылытуу.
DR-план: АЗ/аймакты жоготуу, резервдик бассейнге көчүрүү, борборлоштурулган каталогго көз карандылыкты көзөмөлдөө.
Chaos-Day: GPU-NOD/Network домен/сактоо сыноолору.

12) Конфигурация үлгүлөрү (түшүнүктөр)

Triton - динамикалык батчинг:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - канарлар:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - ишке киргизүү (идеялар):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-өзгөчөлүгү: RAG жана издөө контур

Индекстөө: chanking, embeddings, ANN-charding 'tenant/locale'.
Rerank: тактыгын жогорулатуу үчүн CPU/GPU-slays боюнча жарык модели.
Промпт/контексттердин кэши: дедуп, canonicalization.
Сезгич домендер үчүн цитата/жоопкерчилик саясаты (KUS/эрежелер).

14) Киргизүү чек-тизмеси

1. SLO (p95 latency/tokens/s, жеткиликтүүлүгү) жана жүктөө профилдерин бекитүү.
2. Кластерди бассейндерге бөлүңүз (serving/train/R & D), квоталарды/артыкчылыктарды киргизиңиз.
3. RDMA/NCCL жана топологиялык жактан аң-сезимдүү пландаштыруу кирет.
4. сактоо орнотуу: салмагы, datasetes, fichestor (онлайн/offline), Vector DD.
5. Сервинг-стекти (Triton/KServe/vLLM) тандаңыз, батчинг/KV-кэш/квант кошуңуз.
6. үлгүлөрүнүн реестрин ишке киргизүү, CI/CD, Канар/shadow-deploy.
7. байкоо коюу: системалуу + бизнес-метрика, сапаты, жол.
8. Коопсуздук/PII саясатын, лицензияларды, аудитти киргизиңиз.
9. TCO оптималдаштыруу: толук клондордун ордуна reserved + spot, autoscale, кэш, PEFT.
10. HA/DR даярдоо жана оюн-күнү өткөрөт.

15) Антипаттерндер

"Бардыгы үчүн бир чоң GPU" бассейндери жана артыкчылыктары жок.
LLM → жарылуу p99 жана наркы үчүн динамикалык батчинг жана KV кэш жок.
preemption → SLO-окуялар жок бир бассейнде окутуу жана тейлөө.
Сапаттын/коопсуздуктун нөлдүк телеметриясы → байкалбаган бузулуулар жана тобокелдиктер.
Fichestor/реестр моделдер жок борборлоштурулган монолит → ойнотуу жок.
Таразанын/маалыматтардын лицензияларын четке кагуу.

Натыйжалары

Ийгиликтүү AI инфраструктурасы акылдуу пландоо менен GPU бассейндери, жогорку тармак жана туура сактоо, эффективдүү сервинг (батчинг, кэш, квантирлөө, компиляция), жетилген MLOps жана катуу SLO. Коопсуздук/PII менен бирге, көп региондук HA/DR жана ойлонулган finops платформа туруктуу p99 берет, контролдонуучу $/суроо-талап жана жаңы моделдерди тез киргизүү - жекелештирүү жана LLM жардамчылары каршы.

AI инфраструктурасы жана GPU бассейндери

Кыскача резюме

Пландоо

GPU партиялаштыруу

Оптималдаштыруу

Деплой саясаты

Натыйжалары

Биз менен байланышыңыз

Ыкчам байланыш

Видео жакында жаңыртылат

Азыр биз долбоорлор менен абдан алекпиз