AI ենթակառուցվածքը և GPU-pula
(Բաժին ՝ Տեխնոլոգիաներ և ենթակառուցվածքներ)
Live ռեզյումե
Prodakshn-AI-ը ոչ թե «մեկ մոդել մեկ սերվերի վրա», այլ GPU հանգույցների կլաստեր, ընդհանուր արագացուցիչների փամփուշտներ, միավորված սերվինգի, տվյալների/ֆիչի, դիտարկման և արժեքի կառավարման։ IGaming-ի համար սա իրական ժամանակում քննադատական է 'հակաֆրոդ, կերպար, չաթ-բոտներ, LLM օգնականներ, խաղերի/գործողությունների առաջարկություններ։ Հիմնական աղյուսները ՝ Kubernetes/Slurm պլանավորման, աշխատանքային բեռների մեկուսացման, արագության ցանցը (100/200/400G RDMA), արագ շարժիչները, հասուն MLOps-ը և «երկաթբետոնե» SLO-ը։
1) Ճարտարապետական քարտեզը
Շերտերը
1. Հաշվարկների կլաստեր ՝ GPU-noda (A/H-դասարաններ, AMD/ROCm, No Gaudi և այլն), CPU-nods պրեսսինգի/ֆիչի համար։
2. Ցանցը ՝ 100G + J/IB, RDMA (RoCEv2), NCCL-տեղաբանության, QoS։
3. Պահեստ 'օբյեկտի (S3-105) , որը բաժանված է POSIX (Ceph/grid), տեղական NVMe-scratch։
4. Տվյալները/ֆիչին ՝ ֆիչեստորը (on.ru/24.ru), վեկտորային BD (ANN), քեշը (Redis), հերթերը։
5. ML պլատֆորմը 'ռուսական արտեֆակտներ և մոդելներ, www.plines (CI/CD), տարբերակների վերահսկումը, ֆիչին որպես կոդ։
6. Ծառայողական շերտը ՝ Triton/KServe/vLLM/2019-generation-inference (TGI), A/B/kanari-depla, ավտորեսայիզ։
7. Գովերնանսը և անվտանգությունը ՝ PII, գաղտնիքները, աուդիտը, էքսպորտի քաղաքականությունը, քաշների/դենսացիաների լիցենզիան։
Տիպիկ բեռներ
Առցանց սկորինգը (p95-50-150 ms) - հակաֆրոդ, առաջարկություններ, ռենջացիա։
LLM-serving (p95-200-800 ms 112-512 հոսանքի վրա) - չաթ/105/հուշումներ։
Փաթեթային վերլուծաբան/նախատիպը գիշերային պատուհաններն են, ակնթարթային մետրերը։
Ֆայնթյունինգը/հարմարեցումը պարբերաբար, գերակայությամբ ցածր առցանց է։
2) GPU-puls և պլանավորումը
Փամփուշտի մոդել
Պուլ «Սերվինգ» 'կարճ հարցումներ, բարձր բատչինգ, խիստ SLO։
Պուլ «Դասընթացը/Ֆայնթյունինգը» 'երկար ջոբներ, բաշխված դասընթացը (DDP)։
Պուլ «R & D/Փորձարկումներ» ՝ քվոտաներ/լիմիտներ, prodemption թույլատրված է։
Փուլ «CPU/Windows-/Post-processing» ՝ նորմալացում, թունավորում, rerank CPU-ում։
Պլանավորողները
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (հաճախ HPC-դասընթացի համար) - դուք կարող եք խառնվել K8s-ի հետ առանձին գողերի միջոցով։
Ֆեյր Շեր և քվոտաներ 'namespace քվոտաներ GPU, CPU, հիշողություն; «Բանկեր» GPU ժամ; neemspace/նախագծի սահմանները։
GPU Կուսակցությունը
MFC (Multi-InstationGPU) 'արագացուցիչի կտրումը մեկուսացված սլայզերի վրա (սերվինգի/մուլտֆիլմի-տենանտիզմի համար)։
MPS: SM գնդակը փոքր խնդիրների համար (հետևել միջամտությանը)։
NVLink/PCIe-ը 'հաշվի առնել ենթատեսակների պինինգի (Topology Ault Scheduling) տեղաբանությունը։
K8s-ի օրինակը (հասկացություն)
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Ցանցը և միջգերատեսչական արտադրողականությունը
RDMA (RoCEv2) NCCL-all-reduss համար։ ECN/PSA-2019, դասարանների մեկուսացում։
Տեղայնացում 'մեկ «գործարանի» ներսում (pod/host/link), սերվինգը ավելի մոտ է օգտագործողին (edge/տարածք)։
Կոնգեստի վերահսկումը 'tuned պրոֆիլներ, jumbo frames, pin-ning ինտերֆեյսներ։
4) Պահեստավորում և տվյալներ
Քաշի/արտեֆակտների պահեստ 'օբյեկտի (տարբերակումը, իմմուտաբիլիտությունը)։
Datasets/fichi: Lakehouse (Delta/Iceberg/Hudi) + 108-ֆիչեստոր; online-fichestor (milicunde SLA)։
Վեկտորային BD (ANN): Faiss/ScaNN/աքսելերատորներ, կամ վենդորային վեկտորային շարժիչներ; Շարդինգը, HNSW/IVF, վերարտադրումը։
Տեղական NVMe-քեշը 'քաշի/սաղմեդդինգի տաքացումը սառը մեկնարկի համար։
5) Սերվինգի մոդելները
Ֆրեյմվորկի
Triton Inference Server (մուլտիմոդել, անջատիչ, դինամիկ բատչինգ)։
KServe (K8s-national, autoscaling HPA/KPA, կանարի)։
VLM/TGI-ի համար LLM-տոկենիզացիայի և բարձր արտադրողական ինդուկցիայի համար (paged-attention, KV-kash offlood)։
ONNX Runtime/TronorRT-LLM-ը կազմելու և արագացնելու համար։
Օպտիմիզացում
Քվանտացիա ՝ INT8/FP8/INT4 (պերցինալ/տրամաչափություն, AWQ/GPTQ) - առցանց զգույշ, չափել որակը։
Գրաֆիկի հավաքածուը ՝ TultorRT, TorchInductor/XLA, fused-kernels։
Բատչինգ/միկրոբատչինգ 'դինամիկ և ստատիկ; для LLM — continuous batching.
KV-kash: Գնդակը պահանջների, offlood CPU/NVMe-ի միջև երկար կոնտեքստերում։
Սպեկուլյատիվ ինդեքսը 'նախագծի մոդել + verifidator թոկեն-արտասանության արագացման համար։
Tokens/ենթատեքստերը, վաղ կանգառը, stop-բառերը, time-budget-ը հարցման համար։
Դոպլոյի քաղաքականությունը
A/B, kanari, shadow - լատենտության/որակի/բիզնես մետրի համեմատություն։
Բլու-գրինը 'առանց դաունթայմի։
Ռոլբեքը SLO/սխալներով։
6) Դասընթացը/ֆայնթյունինգը
DDP/FSDP/ZeRO: բաշխված հիշողությունը/գրադիենտները, NVLink/տեղաբանությունը։
Chekpoints: retremental/ամբողջական, vs I/O. հաճախականությունը։
Mixed Precision: bf16/fp16 + loss scaling; պրոֆիլավորել։
Դանասեթ Շարդինգ 'միատեսակ իտերատոր, հանգույցների կրկնօրինակում։
Առաջնահերթությունները 'ընդհատվող ջոբները (www.emptible) հօգուտ սերվինգի։
Ինքնավար դելպլինները ՝ wwww.rain entrain prodrecter-ը կանխատեսում է առաջխաղացումը RF-ում gate-2019-ում։
7) MLOps-ը և պլատֆորմը
Մոդելների իրականացումը 'վարկածներ, ստորագրություններ, կախվածություն, լիցենզիա/կշիռների օգտագործման իրավունք։
CI/CD մոդելները 'համատեղելիության թեստեր, ռեգրեսիա, quality-գեյթ, անվտանգ դոպլիա։
Ֆիչեստորը ՝ 108/onium (feature parity), TTL և backfill։
Express/Model Lineage: Մայրուղին ամսաթվից մինչև զեկույցը/փորձը։
Prompts/ձևանմուշների կատալոգը LLM-ի համար (տարբերակումը)։
8) Դիտարկումը և SLO-ն
Առցանց մետրիկները
P50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, հիշողություն, սխալներ։
LLM առանձնահատկությունները 'պտտվել են մուտքագրման/եզրակացության վրա, պատասխանների միջին երկարությունը, սահմաններից հրաժարվելու մասը, քեշ-hit KV-ը։
Որակը 'ավտոմատ ռեգրեսիայի թեստեր (230), առցանց հեռուստատեսություն (բովանդակություն, թունավորում, ճշգրտություն ոսկու նմուշների վրա)։
Բիզնես-SLO 'կերպարների փոխակերպումը, հակաֆրոդի ճշգրտությունը, պահպանումը։
Alerta 'r99/gent աճը, tokens/s անկումը, batch-interl քայքայումը, VFC/PCIE-throttle սպառումը, rate-limit ձախողումների աճը։
9) Անվտանգություն, ընկերակցություն և սեփականաշնորհում
PII/finden 'հաշվարկների և տվյալների սեգմենտացիա տարածաշրջաններում, մեկ/մեկ տրանզիտում կոդավորումը, հոսանքը։
Գաղտնիքներ/բանալիներ ՝ KFC/Secrets Live; բացառել պահեստները պատկերների/կոդերի մեջ։
LLM-ի ելույթի քաղաքականությունները 'անվտանգության ֆիլտրեր, red-teaming, prompts/պատասխաններ (անանուն)։
Լիցենզիաներ 'նամակներին համապատասխանեցնել ամսաթվերին/քաշին։ «07-redistribae «/առևտրային սահմանափակումներ։
Թենանտների մեկուսացումը 'namespace-RBAC, ցանցեր, MMS սլայզեր, լիմիտներ և քվոտաներ։
10) Արժեք և ֆիենկո
Կապասիտի պլանավորումը 'բեռի ավելցուկ (RPS, հոսող/վրկ), կիսագնդի և արշավների պոչերը։
Արգելոց/Spot: Խառը շուլեր (reserved + spot/wwww.emptible) 'առաջադրանքների համապատասխան արտադրությամբ և chekpoints։
Ավտոսկեյլ 'HPA/KPA RPS/queue depth/GPU-util; «ջերմ մեկնարկը» 'ծանրաբեռնված քաշով։
Մոդելային կենդանաբանական այգի 'կրճատեք տարբերակների քանակը։ օգտագործեք հարմարեցում (LoRA/PEFT) փոխարենը ամբողջությամբ։
Քաշ 'սաղմեդինգներ/թանկարժեք հարցումների արդյունքները, KV-քեշի գնդակը LLM-ի համար։
Հոսանքների օպտիմիզացումը 'պրոմպտի սեղմումը, retrieval-augmented generation (RAG), rerank մինչև 108։
11) Multiregion, HA և DR
Action/Acterving-ը ավելի մոտ է օգտագործողին, գլոբալ routing (latency-based)։
Քաշների և վերջերի կրկնապատկումը ամբողջականության ստուգմամբ։ մեղք գործելով թողարկումների ժամանակ։
DR պլանը 'AZ/տարածաշրջանի կորուստը, պահեստային փամփուշտի վրա ռոտացիան, կախվածության վերահսկումը կենտրոնացված պայմանագրից։
Chaos-օրեր 'GPU-nood/ցանցային կոդերի/wwww.ru-ի ձախողման թեստեր։
12) Խմբակցությունների ձևանմուշները (հասկացություններ)
Triton-ը դինամիկ բատչինգ է
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe-ը կանարի է
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
VLM-ը (գաղափարներ)
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM առանձնահատկությունները ՝ RAG և որոնման համակարգը։
Ինդեքսավորումը 'chanking, ambedings, ANN շարդինգը' tenae/entale '։
Rerank: թեթև մոդել CPU/GPU-slase-ի վրա ճշգրտության բարձրացման համար։
Cash prompts/ենթատեքստեր 'dedup, canonicalization։
Ցիտացիայի/պատասխանատվության քաղաքականությունը զգայուն օրինագծերի համար (KUS/կանոնները)։
14) Ներդրման չեկի ցուցակ
1. Տեղադրեք SLO (p95 latency/tokens/s, հասանելիություն) և բեռի ավելցուկ։
2. Կոտրեք կլաստերը փամփուշտների վրա (serving/train/R & D), մուտքագրեք քվոտաներ/գերակայություններ։
3. Միացրեք RDMA/NCCL-ը և տրամաբանորեն հասկանալի պլանավորումը։
4. Պարամետրերը ՝ կշիռներ, թվասեթներ, ֆիչեստոր (on07/105), վեկտորային BD։
5. Ընտրեք serving-stek (Triton/KServe/vLLM), ավելացրեք բատչինգը/KV-kash/քվանտացիա։
6. Մոդելների, CI/CD, kanari/shadou-depla։
7. Ուշադրություն դարձրեք ՝ 108 + բիզնես մետրեր, որակներ, ուղեգիր։
8. Մուտքագրեք անվտանգության քաղաքականությունը/PII, լիցենզիա, աուդիտ։
9. Օպտիմիզացրեք TCO: reserved + spot, ավտո սկեյլ, քեշը, PEFT-ը ամբողջական կլոնների փոխարեն։
10. Պատրաստեք HA/DR և կատարեք game-day։
15) Անտիպատերնի
«Մեկ մեծ GPU-ն ամեն ինչի վրա» առանց փամփուշտների և գերակայությունների։
Դինամիկ բատչինգի և KV քեշի բացակայությունը LLM-ի համար պլանավորվում է p99 և արժեքի պայթյուն։
Դասընթացը և սերվինգը մեկ փամփուշտի վրա առանց SLO պատահարի։
Որակի/անվտանգության զրոյական հեռաչափությունը ցույց է տալիս աննկատ դեգրադացիաներ և ռիսկեր։
Կենտրոնացված մոնոլիտը առանց ֆիչեստորի/ռուսական մոդելների բացակայում է։
Քաշի/տվյալների անտեսումը։
Արդյունքները
Հաջողակ AI ենթակառուցվածքը GPU-ի փամփուշտներն են 'խելացի պլանավորմամբ, բարձր ցանցով և ճիշտ պարամետրերով, serving (batching, kash, քվանտացիա, կազմավորում), հասուն MLOps և խիստ SLO-ով։ Անվտանգության/PII, բազմաբնույթ HA/DR և մտածված ֆինոպսի հետ միասին պլատֆորմը տալիս է կայուն p99, վերահսկվող դոլար/հարցում և նոր մոդելների արագ ներդրումը 'հակաֆրոդից մինչև կերպարներ և LLM օգնականներ։