GH GambleHub

AI инфрақұрылымы және GPU пулы

(Бөлім: Технологиялар және Инфрақұрылым)

Қысқаша түйіндеме

Продакшн-AI - бұл «бір серверде бір модель» емес, GPU-тораптарынан, жылдамдатқыштардың жалпы пулынан, біріздендірілген сервингтен, деректерден/фичтерден, бақылаудан және құнды басқарудан тұратын кластер. iGaming үшін бұл нақты уақытта өте маңызды: антифрод, дербестендіру, чат-боттар, LLM-ассистенттер, ойындар/акциялар ұсыныстары. Негізгі кірпіштер: жоспарлауға арналған Kubernetes/Slurm, жұмыс жүктемесін оқшаулау, жоғары жылдамдықты желі (RDMA-мен 100/200/400G), жылдам сақтау орындары, жетілген MLOps, және «темірбетон» SLO.

1) Сәулет картасы

Қабаттар:

1. Есептеу кластері: GPU-кодтар (A/H-кластерлер, AMD/ROCm, Intel Gaudi және т.б.), препроцессинг/фичтерге арналған CPU-кодтар.

2. Желі: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL-топологиялар, QoS.

3. Сақтау орны: нысандық (S3- .) , POSIX (Ceph/grid), жергілікті NVMe-scratch таратылған.

4. Деректер/фич: фичестор (online/offline), векторлық ДБ (ANN), кэш (Redis), кезектер.

5. ML-платформа: артефактілер мен модельдер тізілімі, пайплайндар (CI/CD), нұсқаларды бақылау, фичи код ретінде.

6. Сервистік қабат: Triton/KServe/vLLM/text-generation-inference (TGI), А/В/канари-деплой, авторесайз.

7. Говернанс және қауіпсіздік: PII, құпиялар, аудит, экспорт саясаты, таразылар/датасеттер лицензиялары.

Үлгілік жүктемелер:
  • Онлайн-скоринг (p95 ≤ 50-150 мс) - антифрод, ұсынымдар, ранжирлеу.
  • LLM-сервинг (128-512 токенге p95 ≤ 200-800 мс) - чат/агенттер/кеңестер.
  • Пакеттік талдау/жете оқыту - түнгі терезелер, офлайн-метриктер.
  • Файнтюнинг/бейімделу - кезең-кезеңімен, онлайннан төмен басымдықпен.

2) GPU пулы және жоспарлау

Пулдың үлгісі

«Сервинг» пулы: қысқа сұраулар, жоғары батчинг, қатаң SLO.
«Тренинг/Файнтюнинг» пулы: ұзақ джобтар, бөлінген тренинг (DDP).
Пул «R & D/Эксперименттер»: квоталар/лимиттер, preemption рұқсат етілген.
«CPU/Pre-/Post-processing» пулы: қалыпқа келтіру, токенизация, CPU-дағы rerank.

Жоспарлаушылар

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (HPC-тренинг үшін жиі) - жеке воркерлер арқылы K8s араластыруға болады.
Фэйр-шэр және квоталар: namespace-GPU, CPU, жады бойынша квоталар; «банктер» GPU-сағат; неймспейс/жоба бойынша лимиттер.

GPU партияландыру

MIG (Multi-Instance GPU): жеделдеткішті оқшауланған слайстарға кесу (сервинг/мульти-тенантқа арналған).
MPS: ұсақ тапсырмалар үшін SM шарингі (интерференцияны қадағалау).
NVLink/PCIe: подтарды пиннингтеу кезінде топологияны ескеру (Topology Aware Scheduling).

K8s-аннотациялар мысалы (тұжырымдама):
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Желі және торапаралық өнімділік

NCCL-алл-редьюстерге арналған RDMA (RoCEv2); ECN/PFC баптаулары, трафик класын оқшаулау.
Локализация: бір «фабриканың» ішіндегі тренинг (pod/host/оптика), сервинг - пайдаланушыға жақын (edge/өңір).
Конгест-бақылау: tuned профильдер, jumbo frames, pin-ning интерфейстер.

4) Қойма және деректер

Таразылар/артефактілер қоймасы: объектілік (нұсқалау, immutability).
Датасеттер/фичалар: Lakehouse (Delta/Iceberg/Hudi) + offline-фичестор; online-фичестор (миллисекундтық SLA).
Векторлық БД (ANN): Faiss/ScaNN/акселераторлар немесе вендорлық векторлық қозғалтқыштар; шардалау, HNSW/IVF, репликация.
Жергілікті NVMe-кэш: салқын бастау үшін таразыларды/эмбеддингтерді жылыту.

5) Сервинг модельдері

Фреймворк

Triton Inference Server (мультимодель, мультирунтайм, динамикалық батчинг).
KServe (K8s-native, autoscaling HPA/KPA, канарилер).
vLLM/TGI LLM-токенизациялау және жоғары өнімді декодингке арналған (paged-attention, KV-кэш оффлоуд).
ONNX Runtime/TensorRT-LLM - құрастыру және жеделдету үшін.

Оңтайландыру

Квантылау: INT8/FP8/INT4 (перцентили/калибровка, AWQ/GPTQ) - онлайнда абайлап, сапасын өлшеу.
Бағанның жиынтығы: TensorRT, TorchInductor/XLA, fused-kernels.
Батчинг/микробатчинг: динамикалық және статикалық; для LLM — continuous batching.
KV-кэш: сұраулар арасындағы шаринг, ұзақ мәтінмәндерде CPU/NVMe оффлоуд.
Алыпсатарлық декодинг: драфт-модель + токен-туындыларды жеделдетуге арналған верификатор.
Токендер/контекстің лимиттері, ерте тоқтау, стоп-сөздер, сауалға time-budget.

Деплой саясаты

A/B, канарлар, shadow - жасырындылықты/сапаны/бизнес-метриканы салыстыру.
Блю-грин - даунтайсыз.
SLO/қателер бойынша роллбэк.

6) Тренинг/файнтюнинг

DDP/FSDP/ZeRO: таратылған жад/градиенттер, NVLink/топологияларды есепке алу.
Чек пункттері: инкременталды/толық, жиілігі vs I/O.
Mixed Precision: bf16/fp16 + loss scaling; тұрақтылықты бейіндеу.
Датасет-шардинг: біркелкі итератор, тораптар бойынша репликация.
Басымдықтары: сервингтің пайдасына үзілетін джобтар (preemptible).
Дербес пайплайндар: data → train → eval → тіркелім → PROD-да gate критерийлері бойынша жылжыту.

7) MLOps және платформа

Модельдер тізілімі: нұсқалар, қолтаңбалар, тәуелділіктер, лицензиялар/таразыларды пайдалану құқығы.
CI/CD үлгілері: үйлесімділік тестілері, перформанс-регрессиялар, quality-гейттер, қауіпсіз депла.
Фичестор: offline/online консистенттілік (feature parity), TTL және backfill.
Data/Model Lineage: есептен есеп/эксперимент күніне дейін.
LLM үшін промптар/үлгілер каталогы (нұсқалау).

8) Бақылау және SLO

Онлайн-өлшемдер:
  • Жасырындылық p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, жады, қателер.
  • LLM-ерекшелігі: енгізуге/шығаруға арналған токендер, жауаптың орташа ұзындығы, лимиттер бойынша істен шығу үлесі, кэш-hit KV.
  • Сапасы: автоматты регрессиялық тесттер (offline), онлайн-телеметрия (контент-жалаулар, уыттылық, алтын іріктемелерде берудің дәлдігі).
  • Бизнес-SLO: дербестендіру конверсиясы, антифрод дәлдігі, ұстап тұру.

Алерталар: p99/кезек бойы, tokens/s құлдырауы, batch-fill деградациясы, VRAM/PCIe-throttle сарқылуы, rate-limit істен шығу өсуі.

9) Қауіпсіздік, комплаенс және құпиялылық

PII/қаржылық деректер: есептеулер мен өңірлер бойынша деректерді сегменттеу, тыныш/транзитте шифрлау, токенизация.
Құпиялар/кілттер: KMS/Secrets Manager; бейнелерде/кодтарда сақтауды алып тастау.
LLM шығару саясаты: қауіпсіздік сүзгілері, red-teaming, промптар/жауаптарды журналдау (анонимдеумен).
Лицензиялар: күннің/салмақтың лицензияларға сәйкестігі; «no-redistribute «/коммерциялық шектеулер.
Тенанттарды оқшаулау: namespace-RBAC, желілер, MIG-слайдтар, лимиттер мен квоталар.

10) Құны және финопс

Капасити-жоспарлау: жүктеме профильдері (RPS, токендер/сек), турнирлер мен кампаниялардың «қалдықтары».
Резерв/Spot: тапсырмаларды қайта қоя отырып және чек пункттерімен аралас пулдар (reserved + spot/preemptible).
Автоскейл: RPS/queue depth/GPU-util бойынша HPA/KPA; жылытылған таразылармен «жылы старт».
Модельді хайуанаттар бағы: нұсқалар санын қысқартыңыз; толық қайталаудың орнына бейімделуді (LoRA/PEFT) пайдаланыңыз.
Кэш: эмбеддингтер/қымбат сұраулардың нәтижелері, LLM үшін KV кэшінің шарингі.
Токендерді оңтайландыру: өнеркәсіпті қысу, retrieval-augmented generation (RAG), rerank генерацияға дейін.

11) Мультирегион, HA және DR

Active/Active сервингі пайдаланушыға жақын, жаһандық роутинг (latency-based).
Тұтастығын тексерумен таразылар мен фичтерді репликалау; релиздер кезінде кэштерді жылыту.
DR-жоспар: AZ/аймақты жоғалту, резервтік пулға көшіру, орталықтандырылған каталогқа тәуелділікті бақылау.
Chaos-күндері: GPU-нод/желілік домендер/қойма істен шығу тестілері.

12) Конфигурация үлгілері (тұжырымдамалар)

Triton - динамикалық батчинг:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - канарилер:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - іске қосу (идеялар):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM-ерекшелігі: RAG және іздеу контуры

Индекстеу: чанкинг, эмбеддингтер, 'tenant/locale' бойынша ANN-шардирлеу.
Rerank: CPU/GPU слайсында дәлдікті арттыру үшін жеңіл модель.
Промпттар/контекстер кэші: дедуп, canonicalization.
Сезімтал домендер үшін дәйексөз/жауапкершілік саясаты (КБК/ережелер).

14) Енгізу чек-парағы

1. SLO (p95 latency/tokens/s, қол жетімділік) және жүктеме профильдерін белгілеңіз.
2. Кластерді пулға бөліңіз (serving/train/R & D), квоталарды/басымдықтарды енгізіңіз.
3. RDMA/NCCL және топологиялық саналы жоспарлауды қосыңыз.
4. Сақтау орындарын баптаңыз: таразы, датасеттер, фичестор (online/offline), векторлық ДБ.
5. Сервинг-стек (Triton/KServe/vLLM) таңдаңыз, батчинг/KV-кэш/кванталау қосыңыз.
6. CI/CD, канари/шадоу-деплой үлгілерінің тізілімін іске қосыңыз.
7. Бақылау орнатыңыз: жүйелік + бизнес-метрика, сапа, трассинг.
8. Қауіпсіздік/PII саясатын, лицензияларды, аудитті енгізіңіз.
9. TCO-ны оңтайландыру: толық клондардың орнына reserved + spot, автоскейл, кэш, PEFT.
10. HA/DR дайындап, game-day өткізіңіз.

15) Антипаттерндер

«Барлығына бір үлкен GPU» пулдары мен басымдықтары жоқ.
LLM → жару p99 және құны үшін динамикалық батчинг пен KV-кэштің болмауы.
Preemption → SLO-оқиғаларсыз бір пулда тренинг және сервинг.
Сапа/қауіпсіздіктің нөлдік телеметриясы → көзге көрінбейтін тозулар мен тәуекелдер.
Фичесторсыз/модельдер тізілімінсіз орталықтандырылған монолит жоқ.
Таразы/деректер лицензияларын елемеу.

Сәтті AI-инфрақұрылым - бұл ақылды жоспарлы GPU пулдары, жоғары желі және дұрыс сақтау орындары, тиімді сервинг (батчинг, кэш, кванталау, құрастыру), жетілген MLOps және қатаң SLO. Қауіпсіздік/PII, мультиөңірлік HA/DR және ойластырылған финопспен бірге платформа тұрақты p99 береді, бақыланатын $/сұраныс және антифродтан дербестендіруге және LLM-ассистенттерге дейін жаңа үлгілерді жылдам енгізу.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.