AI инфраструктурасы жана GPU бассейндери
(Бөлүк: Технология жана инфраструктура)
Кыскача резюме
Production-AI - бул "бир серверде бир модель" эмес, GPU түйүндөрүнүн, жалпы ылдамдаткычтар пулдарынын, бирдиктүү сервингдин, маалыматтардын/функциялардын, байкоо жана наркты башкаруунун кластери. iGaming үчүн бул реалдуу убакытта маанилүү болуп саналат: антифрод, персоналдаштыруу, чат боттору, LLM жардамчылары, оюндар/акциялар боюнча сунуштар. Негизги кирпичтер: Kubernetes/Slurm пландаштыруу үчүн, жүгүн изоляциялоо, жогорку ылдамдыктагы тармак (RDMA менен 100/200/400G), тез сактоо, жетилген MLOps, жана "темир-бетон" SLO.
1) Архитектуралык карта
Катмарлар:1. Эсептөө кластери: GPU-ноддор (A/H-класстар, AMD/ROCm, Intel Gaudi ж.б.), Preprocessing/fich үчүн CPU-ноддор.
2. Тармак: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-топология, QoS.
3. Сактоо: объект (S3- .) , POSIX бөлүштүрүлгөн (Ceph/grid), жергиликтүү NVMe-scratch.
4. Маалыматтар/ийгиликтер: fichestor (online/offline), Vector DD (ANN), кэш (Redis), кезек.
5. ML-платформа: артефакттардын жана моделдердин реестри, пайплайндар (CI/CD), версияларды көзөмөлдөө, код катары чичи.
6. Кызмат катмары: Triton/KServe/vLLM/text-generation-inference (TGI), A/B/kanari-deploy, autoresaise.
7. Говернанс жана коопсуздук: PII, сырлар, аудит, экспорт саясаты, тараза/дата лицензиялары.
Типтүү жүктөр:- Онлайн эсеби (p95 ≤ 50-150 ms) - антифрод, сунуштар, рейтинги.
- LLM-Serving (p95 ≤ 200-800 ms 128-512 токендер) - чат/агенттер/маалымат.
- Пакеттик аналитика/кошумча окутуу - түнкү терезелер, оффлайн-метриктер.
- Файнтюнинг/адаптация - мезгил-мезгили менен, онлайндан төмөн артыкчылык менен.
2) GPU бассейндер жана пландаштыруу
Бассейн модели
"Сервинг" бассейни: кыска суроолор, жогорку батчинг, катуу SLO.
Pool "Training/Finntyuning": узун Jobs, бөлүштүрүлгөн окутуу (DDP).
Pool "R & D/Эксперименттер": квоталар/лимиттер, алдын ала уруксат берилген.
"CPU/Pre-/Post-processing" бассейни: нормалдаштыруу, токендештирүү, CPU боюнча rerank.
Пландоо
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (көбүнчө HPC-тренинг үчүн) - жеке workers аркылуу K8s менен аралаштырууга болот.
Fair-Sher жана квота: namespace-GPU боюнча квота, CPU, эс; "банктар" GPU-саат; неймспейс/долбоор боюнча лимиттер.
GPU партиялаштыруу
MIG (Multi-Instance GPU): жылмаланган тилкелерге тездеткич кесүү (Servving/Multi-тенанттуулук үчүн).
MPS: чакан тапшырмалар үчүн SM бөлүшүү (кийлигишүү үчүн).
NVLink/PCIe: Pods пиннинг топологиясын эске алуу (Topology Aware Scheduling).
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Тармак жана түйүндөр аралык аткаруу
RDMA (RoCEv2) NCCL үчүн; ECN/PFC жөндөөлөрү, трафик класстарын изоляциялоо.
Локализация: бир "фабрика" ичинде тренинг (pod/host/оптика), сервинг - колдонуучуга жакын (edge/аймак).
Congest Control: tuned Profiles, jumbo frames, pin-ning интерфейстери.
4) Сактоо жана маалыматтар
Тараза/артефакттарды сактоо: объект (версиялоо, immutability).
Dataset/Fich: Lakehouse (Delta/Iceberg/Hudi) + offline-Fichestor; онлайн fichestor (миллисекунддук SLA).
Вектордук БД (ANN): Faiss/ScaNN/акселераторлор, же вендордук вектордук кыймылдаткычтар; charding, HNSW/IVF, репликация.
Жергиликтүү NVMe-кэш: муздак баштоо үчүн тараза/эмбеддинг жылытуу.
5) Сервинг моделдер
Фреймворк
Triton Inference Server (multimodel, multiruntime, динамикалык батчинг).
KServe (K8s-жергиликтүү, autoscaling HPA/KPA, Канар).
vLLM/TGI үчүн LLM токенизациялоо жана жогорку өндүрүмдүү декодинг (paged-attention, KV-кэш оффлоуд).
ONNX Runtime/TensorRT-LLM - компиляция жана тездетүү үчүн.
Оптималдаштыруу
Kvanting: INT8/FP8/INT4 (кагаз/калибрлөө, AWQ/GPTQ) - онлайн кылдаттык менен, сапатын өлчөө.
Графанын компиляциясы: TensorRT, TorchInductor/XLA, fused-kernels.
Батчинг/микробатчинг: динамикалык жана статикалык; для LLM — continuous batching.
KV-кэш: суроо-талаптардын ортосунда бөлүшүү, узак контекстте CPU/NVMe боюнча оффлоуд.
Spekulative Decoding: Draft модели + токен-айтылуу тездетүү үчүн текшерүү.
Токендердин/контексттин лимиттери, эрте токтотуу, токтоо сөздөрү, суроо-талап боюнча time-budget.
Деплой саясаты
A/B, канарлар, shadow - жашыруун/сапаты/бизнес-метрика салыштыруу.
Блю-грин - даунтайм жок.
SLO/каталар боюнча Rollback.
6) Окутуу/коопсуздук
DDP/FSDP/ZeRO: бөлүштүрүлгөн эс/градиенттер, NVLink/топология эсепке алуу.
Чекене пункттар: инкременталдык/толук, жыштык vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; туруктуулукту профилдөө.
Датасет-шардинг: бирдей итератор, түйүндөр боюнча репликация.
Артыкчылыктары: үзүлүүчү Jobs (preemptible) Serving пайдасына.
Автономдуу пайплайндар: data → train → eval → реестр → PRODда жылдыруу.
7) MLOps жана платформа
Моделдердин реестри: версиялар, кол тамгалар, көз карандылык, лицензиялар/таразаларды колдонуу укугу.
CI/CD моделдер: шайкештик тесттер, аткаруу-регрессия, quality-гейт, коопсуз депла.
Фичестор: оффлайн/онлайн консистенттүүлүк (feature parity), TTL жана backfill.
Data/Model Lineage: отчет/эксперимент үчүн datasetten tracking.
LLM үчүн өнөр жай/үлгү каталогу (чыгаруу).
8) Байкоо жана SLO
Онлайн метрика:- Латентность p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, эстутум, каталар.
- LLM-өзгөчөлүгү: киргизүү/чыгаруу үчүн токендер, жооптун орточо узундугу, лимиттер боюнча мүчүлүштүктөрдүн үлүшү, кэш-хит KV.
- Сапат: автоматтык регрессиялык тесттер (оффлайн), онлайн телеметрия (контент желектери, уулуулугу, алтын үлгүлөрдөгү чыгаруунун тактыгы).
- Бизнес-SLO: жекелештирүү конверсиясы, антифрод тактыгы, сактоо.
Alerty: P99/кезек өсүшү, Токендердин/s кулашы, batch-fill деградациясы, VRAM/PCIe-throttle түгөнүшү, rate-limit мүчүлүштүктөрдүн өсүшү.
9) Коопсуздук, комплаенс жана купуялык
PII/каржылык маалыматтар: региондор боюнча эсептөө жана маалыматтарды сегменттөө, тынч/транзитте шифрлөө, токенизация.
Сырлар/ачкычтар: KMS/Secrets Manager; сүрөттөрдө/коддо сактоону жокко чыгаруу.
LLM чыгаруу саясаты: коопсуздук чыпкалары, red-teaming, promppt/жоопторду каттоо (анонимдештирүү менен).
Лицензиялар: датасеттерге/салмакка лицензиялардын шайкештиги; "no-redistribute "/коммерциялык чектөөлөр.
Тенанттардын изоляциясы: namespace-RBAC, тармактар, MIG тилкелери, лимиттер жана квоталар.
10) Наркы жана finops
Capacity-пландаштыруу: жүктөө Profiles (RPS, токендер/сек), "куйруктары" турнир жана кампаниялар.
Reserve/Spot: аралаш бассейндер (reserved + spot/preemptible) кайра тапшырмалар жана текшерүү пункттары менен.
Autoscale: HPA/KPA RPS/queue depth/GPU-util; жылытылган таразалар менен "жылуу баштоо".
модель зоопарк: параметрлердин санын кыскартуу; толук кайталоонун ордуна адаптацияны (LoRA/PEFT) колдонуңуз.
Кэш: Эмбеддинг/кымбат суроо-талаптардын натыйжалары, LLM үчүн KV кэш бөлүшүү.
Токендерди оптималдаштыруу: өнөр жай түйүндөрүн кысуу, retrieval-augmented generation (RAG), генерацияга чейин rerank.
11) Multiregion, HA жана DR
Active/Active Serving колдонуучуга жакын, глобалдык роутинг (latency-based).
Таразаларды жана фичтерди бүтүндүгүн текшерүү менен репликациялоо; бошотуу учурунда кэш жылытуу.
DR-план: АЗ/аймакты жоготуу, резервдик бассейнге көчүрүү, борборлоштурулган каталогго көз карандылыкты көзөмөлдөө.
Chaos-Day: GPU-NOD/Network домен/сактоо сыноолору.
12) Конфигурация үлгүлөрү (түшүнүктөр)
Triton - динамикалык батчинг:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - канарлар:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - ишке киргизүү (идеялар):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM-өзгөчөлүгү: RAG жана издөө контур
Индекстөө: chanking, embeddings, ANN-charding 'tenant/locale'.
Rerank: тактыгын жогорулатуу үчүн CPU/GPU-slays боюнча жарык модели.
Промпт/контексттердин кэши: дедуп, canonicalization.
Сезгич домендер үчүн цитата/жоопкерчилик саясаты (KUS/эрежелер).
14) Киргизүү чек-тизмеси
1. SLO (p95 latency/tokens/s, жеткиликтүүлүгү) жана жүктөө профилдерин бекитүү.
2. Кластерди бассейндерге бөлүңүз (serving/train/R & D), квоталарды/артыкчылыктарды киргизиңиз.
3. RDMA/NCCL жана топологиялык жактан аң-сезимдүү пландаштыруу кирет.
4. сактоо орнотуу: салмагы, datasetes, fichestor (онлайн/offline), Vector DD.
5. Сервинг-стекти (Triton/KServe/vLLM) тандаңыз, батчинг/KV-кэш/квант кошуңуз.
6. үлгүлөрүнүн реестрин ишке киргизүү, CI/CD, Канар/shadow-deploy.
7. байкоо коюу: системалуу + бизнес-метрика, сапаты, жол.
8. Коопсуздук/PII саясатын, лицензияларды, аудитти киргизиңиз.
9. TCO оптималдаштыруу: толук клондордун ордуна reserved + spot, autoscale, кэш, PEFT.
10. HA/DR даярдоо жана оюн-күнү өткөрөт.
15) Антипаттерндер
"Бардыгы үчүн бир чоң GPU" бассейндери жана артыкчылыктары жок.
LLM → жарылуу p99 жана наркы үчүн динамикалык батчинг жана KV кэш жок.
preemption → SLO-окуялар жок бир бассейнде окутуу жана тейлөө.
Сапаттын/коопсуздуктун нөлдүк телеметриясы → байкалбаган бузулуулар жана тобокелдиктер.
Fichestor/реестр моделдер жок борборлоштурулган монолит → ойнотуу жок.
Таразанын/маалыматтардын лицензияларын четке кагуу.
Натыйжалары
Ийгиликтүү AI инфраструктурасы акылдуу пландоо менен GPU бассейндери, жогорку тармак жана туура сактоо, эффективдүү сервинг (батчинг, кэш, квантирлөө, компиляция), жетилген MLOps жана катуу SLO. Коопсуздук/PII менен бирге, көп региондук HA/DR жана ойлонулган finops платформа туруктуу p99 берет, контролдонуучу $/суроо-талап жана жаңы моделдерди тез киргизүү - жекелештирүү жана LLM жардамчылары каршы.