AI инфрақұрылымы және GPU пулы

(Бөлім: Технологиялар және Инфрақұрылым)

Қысқаша түйіндеме

Продакшн-AI - бұл «бір серверде бір модель» емес, GPU-тораптарынан, жылдамдатқыштардың жалпы пулынан, біріздендірілген сервингтен, деректерден/фичтерден, бақылаудан және құнды басқарудан тұратын кластер. iGaming үшін бұл нақты уақытта өте маңызды: антифрод, дербестендіру, чат-боттар, LLM-ассистенттер, ойындар/акциялар ұсыныстары. Негізгі кірпіштер: жоспарлауға арналған Kubernetes/Slurm, жұмыс жүктемесін оқшаулау, жоғары жылдамдықты желі (RDMA-мен 100/200/400G), жылдам сақтау орындары, жетілген MLOps, және «темірбетон» SLO.

1) Сәулет картасы

Қабаттар:

1. Есептеу кластері: GPU-кодтар (A/H-кластерлер, AMD/ROCm, Intel Gaudi және т.б.), препроцессинг/фичтерге арналған CPU-кодтар.

2. Желі: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-топологиялар, QoS.

3. Сақтау орны: нысандық (S3- .) , POSIX (Ceph/grid), жергілікті NVMe-scratch таратылған.

4. Деректер/фич: фичестор (online/offline), векторлық ДБ (ANN), кэш (Redis), кезектер.

5. ML-платформа: артефактілер мен модельдер тізілімі, пайплайндар (CI/CD), нұсқаларды бақылау, фичи код ретінде.

6. Сервистік қабат: Triton/KServe/vLLM/text-generation-inference (TGI), А/В/канари-деплой, авторесайз.

7. Говернанс және қауіпсіздік: PII, құпиялар, аудит, экспорт саясаты, таразылар/датасеттер лицензиялары.

Үлгілік жүктемелер:

Онлайн-скоринг (p95 ≤ 50-150 мс) - антифрод, ұсынымдар, ранжирлеу.
LLM-сервинг (128-512 токенге p95 ≤ 200-800 мс) - чат/агенттер/кеңестер.
Пакеттік талдау/жете оқыту - түнгі терезелер, офлайн-метриктер.
Файнтюнинг/бейімделу - кезең-кезеңімен, онлайннан төмен басымдықпен.

2) GPU пулы және жоспарлау

Пулдың үлгісі

«Сервинг» пулы: қысқа сұраулар, жоғары батчинг, қатаң SLO.
«Тренинг/Файнтюнинг» пулы: ұзақ джобтар, бөлінген тренинг (DDP).
Пул «R & D/Эксперименттер»: квоталар/лимиттер, preemption рұқсат етілген.
«CPU/Pre-/Post-processing» пулы: қалыпқа келтіру, токенизация, CPU-дағы rerank.

Жоспарлаушылар

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (HPC-тренинг үшін жиі) - жеке воркерлер арқылы K8s араластыруға болады.
Фэйр-шэр және квоталар: namespace-GPU, CPU, жады бойынша квоталар; «банктер» GPU-сағат; неймспейс/жоба бойынша лимиттер.

GPU партияландыру

MIG (Multi-Instance GPU): жеделдеткішті оқшауланған слайстарға кесу (сервинг/мульти-тенантқа арналған).
MPS: ұсақ тапсырмалар үшін SM шарингі (интерференцияны қадағалау).
NVLink/PCIe: подтарды пиннингтеу кезінде топологияны ескеру (Topology Aware Scheduling).

K8s-аннотациялар мысалы (тұжырымдама):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Желі және торапаралық өнімділік

NCCL-алл-редьюстерге арналған RDMA (RoCEv2); ECN/PFC баптаулары, трафик класын оқшаулау.
Локализация: бір «фабриканың» ішіндегі тренинг (pod/host/оптика), сервинг - пайдаланушыға жақын (edge/өңір).
Конгест-бақылау: tuned профильдер, jumbo frames, pin-ning интерфейстер.

4) Қойма және деректер

Таразылар/артефактілер қоймасы: объектілік (нұсқалау, immutability).
Датасеттер/фичалар: Lakehouse (Delta/Iceberg/Hudi) + offline-фичестор; online-фичестор (миллисекундтық SLA).
Векторлық БД (ANN): Faiss/ScaNN/акселераторлар немесе вендорлық векторлық қозғалтқыштар; шардалау, HNSW/IVF, репликация.
Жергілікті NVMe-кэш: салқын бастау үшін таразыларды/эмбеддингтерді жылыту.

5) Сервинг модельдері

Фреймворк

Triton Inference Server (мультимодель, мультирунтайм, динамикалық батчинг).
KServe (K8s-native, autoscaling HPA/KPA, канарилер).
vLLM/TGI LLM-токенизациялау және жоғары өнімді декодингке арналған (paged-attention, KV-кэш оффлоуд).
ONNX Runtime/TensorRT-LLM - құрастыру және жеделдету үшін.

Оңтайландыру

Квантылау: INT8/FP8/INT4 (перцентили/калибровка, AWQ/GPTQ) - онлайнда абайлап, сапасын өлшеу.
Бағанның жиынтығы: TensorRT, TorchInductor/XLA, fused-kernels.
Батчинг/микробатчинг: динамикалық және статикалық; для LLM — continuous batching.
KV-кэш: сұраулар арасындағы шаринг, ұзақ мәтінмәндерде CPU/NVMe оффлоуд.
Алыпсатарлық декодинг: драфт-модель + токен-туындыларды жеделдетуге арналған верификатор.
Токендер/контекстің лимиттері, ерте тоқтау, стоп-сөздер, сауалға time-budget.

Деплой саясаты

A/B, канарлар, shadow - жасырындылықты/сапаны/бизнес-метриканы салыстыру.
Блю-грин - даунтайсыз.
SLO/қателер бойынша роллбэк.

6) Тренинг/файнтюнинг

DDP/FSDP/ZeRO: таратылған жад/градиенттер, NVLink/топологияларды есепке алу.
Чек пункттері: инкременталды/толық, жиілігі vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; тұрақтылықты бейіндеу.
Датасет-шардинг: біркелкі итератор, тораптар бойынша репликация.
Басымдықтары: сервингтің пайдасына үзілетін джобтар (preemptible).
Дербес пайплайндар: data → train → eval → тіркелім → PROD-да gate критерийлері бойынша жылжыту.

7) MLOps және платформа

Модельдер тізілімі: нұсқалар, қолтаңбалар, тәуелділіктер, лицензиялар/таразыларды пайдалану құқығы.
CI/CD үлгілері: үйлесімділік тестілері, перформанс-регрессиялар, quality-гейттер, қауіпсіз депла.
Фичестор: offline/online консистенттілік (feature parity), TTL және backfill.
Data/Model Lineage: есептен есеп/эксперимент күніне дейін.
LLM үшін промптар/үлгілер каталогы (нұсқалау).

8) Бақылау және SLO

Онлайн-өлшемдер:

Жасырындылық p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, жады, қателер.
LLM-ерекшелігі: енгізуге/шығаруға арналған токендер, жауаптың орташа ұзындығы, лимиттер бойынша істен шығу үлесі, кэш-hit KV.
Сапасы: автоматты регрессиялық тесттер (offline), онлайн-телеметрия (контент-жалаулар, уыттылық, алтын іріктемелерде берудің дәлдігі).
Бизнес-SLO: дербестендіру конверсиясы, антифрод дәлдігі, ұстап тұру.

Алерталар: p99/кезек бойы, tokens/s құлдырауы, batch-fill деградациясы, VRAM/PCIe-throttle сарқылуы, rate-limit істен шығу өсуі.

9) Қауіпсіздік, комплаенс және құпиялылық

PII/қаржылық деректер: есептеулер мен өңірлер бойынша деректерді сегменттеу, тыныш/транзитте шифрлау, токенизация.
Құпиялар/кілттер: KMS/Secrets Manager; бейнелерде/кодтарда сақтауды алып тастау.
LLM шығару саясаты: қауіпсіздік сүзгілері, red-teaming, промптар/жауаптарды журналдау (анонимдеумен).
Лицензиялар: күннің/салмақтың лицензияларға сәйкестігі; «no-redistribute «/коммерциялық шектеулер.
Тенанттарды оқшаулау: namespace-RBAC, желілер, MIG-слайдтар, лимиттер мен квоталар.

10) Құны және финопс

Капасити-жоспарлау: жүктеме профильдері (RPS, токендер/сек), турнирлер мен кампаниялардың «қалдықтары».
Резерв/Spot: тапсырмаларды қайта қоя отырып және чек пункттерімен аралас пулдар (reserved + spot/preemptible).
Автоскейл: RPS/queue depth/GPU-util бойынша HPA/KPA; жылытылған таразылармен «жылы старт».
Модельді хайуанаттар бағы: нұсқалар санын қысқартыңыз; толық қайталаудың орнына бейімделуді (LoRA/PEFT) пайдаланыңыз.
Кэш: эмбеддингтер/қымбат сұраулардың нәтижелері, LLM үшін KV кэшінің шарингі.
Токендерді оңтайландыру: өнеркәсіпті қысу, retrieval-augmented generation (RAG), rerank генерацияға дейін.

11) Мультирегион, HA және DR

Active/Active сервингі пайдаланушыға жақын, жаһандық роутинг (latency-based).
Тұтастығын тексерумен таразылар мен фичтерді репликалау; релиздер кезінде кэштерді жылыту.
DR-жоспар: AZ/аймақты жоғалту, резервтік пулға көшіру, орталықтандырылған каталогқа тәуелділікті бақылау.
Chaos-күндері: GPU-нод/желілік домендер/қойма істен шығу тестілері.

12) Конфигурация үлгілері (тұжырымдамалар)

Triton - динамикалық батчинг:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - канарилер:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - іске қосу (идеялар):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-ерекшелігі: RAG және іздеу контуры

Индекстеу: чанкинг, эмбеддингтер, 'tenant/locale' бойынша ANN-шардирлеу.
Rerank: CPU/GPU слайсында дәлдікті арттыру үшін жеңіл модель.
Промпттар/контекстер кэші: дедуп, canonicalization.
Сезімтал домендер үшін дәйексөз/жауапкершілік саясаты (КБК/ережелер).

14) Енгізу чек-парағы

1. SLO (p95 latency/tokens/s, қол жетімділік) және жүктеме профильдерін белгілеңіз.
2. Кластерді пулға бөліңіз (serving/train/R & D), квоталарды/басымдықтарды енгізіңіз.
3. RDMA/NCCL және топологиялық саналы жоспарлауды қосыңыз.
4. Сақтау орындарын баптаңыз: таразы, датасеттер, фичестор (online/offline), векторлық ДБ.
5. Сервинг-стек (Triton/KServe/vLLM) таңдаңыз, батчинг/KV-кэш/кванталау қосыңыз.
6. CI/CD, канари/шадоу-деплой үлгілерінің тізілімін іске қосыңыз.
7. Бақылау орнатыңыз: жүйелік + бизнес-метрика, сапа, трассинг.
8. Қауіпсіздік/PII саясатын, лицензияларды, аудитті енгізіңіз.
9. TCO-ны оңтайландыру: толық клондардың орнына reserved + spot, автоскейл, кэш, PEFT.
10. HA/DR дайындап, game-day өткізіңіз.

15) Антипаттерндер

«Барлығына бір үлкен GPU» пулдары мен басымдықтары жоқ.
LLM → жару p99 және құны үшін динамикалық батчинг пен KV-кэштің болмауы.
Preemption → SLO-оқиғаларсыз бір пулда тренинг және сервинг.
Сапа/қауіпсіздіктің нөлдік телеметриясы → көзге көрінбейтін тозулар мен тәуекелдер.
Фичесторсыз/модельдер тізілімінсіз орталықтандырылған монолит жоқ.
Таразы/деректер лицензияларын елемеу.

Сәтті AI-инфрақұрылым - бұл ақылды жоспарлы GPU пулдары, жоғары желі және дұрыс сақтау орындары, тиімді сервинг (батчинг, кэш, кванталау, құрастыру), жетілген MLOps және қатаң SLO. Қауіпсіздік/PII, мультиөңірлік HA/DR және ойластырылған финопспен бірге платформа тұрақты p99 береді, бақыланатын $/сұраныс және антифродтан дербестендіруге және LLM-ассистенттерге дейін жаңа үлгілерді жылдам енгізу.

AI инфрақұрылымы және GPU пулы

Қысқаша түйіндеме

Жоспарлаушылар

GPU партияландыру

Оңтайландыру

Деплой саясаты

Бізбен байланысыңыз

Жылдам байланыс

Бейне жақында жаңартылады

Қазір біз жобалармен өте қатты айналысып жатырмыз