AI ենթակառուցվածքը և GPU-pula

(Բաժին ՝ Տեխնոլոգիաներ և ենթակառուցվածքներ)

Live ռեզյումե

Prodakshn-AI-ը ոչ թե «մեկ մոդել մեկ սերվերի վրա», այլ GPU հանգույցների կլաստեր, ընդհանուր արագացուցիչների փամփուշտներ, միավորված սերվինգի, տվյալների/ֆիչի, դիտարկման և արժեքի կառավարման։ IGaming-ի համար սա իրական ժամանակում քննադատական է 'հակաֆրոդ, կերպար, չաթ-բոտներ, LLM օգնականներ, խաղերի/գործողությունների առաջարկություններ։ Հիմնական աղյուսները ՝ Kubernetes/Slurm պլանավորման, աշխատանքային բեռների մեկուսացման, արագության ցանցը (100/200/400G RDMA), արագ շարժիչները, հասուն MLOps-ը և «երկաթբետոնե» SLO-ը։

1) Ճարտարապետական քարտեզը

Շերտերը

1. Հաշվարկների կլաստեր ՝ GPU-noda (A/H-դասարաններ, AMD/ROCm, No Gaudi և այլն), CPU-nods պրեսսինգի/ֆիչի համար։

2. Ցանցը ՝ 100G + J/IB, RDMA (RoCEv2), NCCL-տեղաբանության, QoS։

3. Պահեստ 'օբյեկտի (S3-105) , որը բաժանված է POSIX (Ceph/grid), տեղական NVMe-scratch։

4. Տվյալները/ֆիչին ՝ ֆիչեստորը (on.ru/24.ru), վեկտորային BD (ANN), քեշը (Redis), հերթերը։

5. ML պլատֆորմը 'ռուսական արտեֆակտներ և մոդելներ, www.plines (CI/CD), տարբերակների վերահսկումը, ֆիչին որպես կոդ։

6. Ծառայողական շերտը ՝ Triton/KServe/vLLM/2019-generation-inference (TGI), A/B/kanari-depla, ավտորեսայիզ։

7. Գովերնանսը և անվտանգությունը ՝ PII, գաղտնիքները, աուդիտը, էքսպորտի քաղաքականությունը, քաշների/դենսացիաների լիցենզիան։

Տիպիկ բեռներ

Առցանց սկորինգը (p95-50-150 ms) - հակաֆրոդ, առաջարկություններ, ռենջացիա։

LLM-serving (p95-200-800 ms 112-512 հոսանքի վրա) - չաթ/105/հուշումներ։

Փաթեթային վերլուծաբան/նախատիպը գիշերային պատուհաններն են, ակնթարթային մետրերը։

Ֆայնթյունինգը/հարմարեցումը պարբերաբար, գերակայությամբ ցածր առցանց է։

2) GPU-puls և պլանավորումը

Փամփուշտի մոդել

Պուլ «Սերվինգ» 'կարճ հարցումներ, բարձր բատչինգ, խիստ SLO։

Պուլ «Դասընթացը/Ֆայնթյունինգը» 'երկար ջոբներ, բաշխված դասընթացը (DDP)։

Պուլ «R & D/Փորձարկումներ» ՝ քվոտաներ/լիմիտներ, prodemption թույլատրված է։

Փուլ «CPU/Windows-/Post-processing» ՝ նորմալացում, թունավորում, rerank CPU-ում։

Պլանավորողները

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).

Slurm (հաճախ HPC-դասընթացի համար) - դուք կարող եք խառնվել K8s-ի հետ առանձին գողերի միջոցով։

Ֆեյր Շեր և քվոտաներ 'namespace քվոտաներ GPU, CPU, հիշողություն; «Բանկեր» GPU ժամ; neemspace/նախագծի սահմանները։

GPU Կուսակցությունը

MFC (Multi-InstationGPU) 'արագացուցիչի կտրումը մեկուսացված սլայզերի վրա (սերվինգի/մուլտֆիլմի-տենանտիզմի համար)։

MPS: SM գնդակը փոքր խնդիրների համար (հետևել միջամտությանը)։

NVLink/PCIe-ը 'հաշվի առնել ենթատեսակների պինինգի (Topology Ault Scheduling) տեղաբանությունը։

K8s-ի օրինակը (հասկացություն)

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) Ցանցը և միջգերատեսչական արտադրողականությունը

RDMA (RoCEv2) NCCL-all-reduss համար։ ECN/PSA-2019, դասարանների մեկուսացում։

Տեղայնացում 'մեկ «գործարանի» ներսում (pod/host/link), սերվինգը ավելի մոտ է օգտագործողին (edge/տարածք)։

Կոնգեստի վերահսկումը 'tuned պրոֆիլներ, jumbo frames, pin-ning ինտերֆեյսներ։

4) Պահեստավորում և տվյալներ

Քաշի/արտեֆակտների պահեստ 'օբյեկտի (տարբերակումը, իմմուտաբիլիտությունը)։

Datasets/fichi: Lakehouse (Delta/Iceberg/Hudi) + 108-ֆիչեստոր; online-fichestor (milicunde SLA)։

Վեկտորային BD (ANN): Faiss/ScaNN/աքսելերատորներ, կամ վենդորային վեկտորային շարժիչներ; Շարդինգը, HNSW/IVF, վերարտադրումը։

Տեղական NVMe-քեշը 'քաշի/սաղմեդդինգի տաքացումը սառը մեկնարկի համար։

5) Սերվինգի մոդելները

Ֆրեյմվորկի

Triton Inference Server (մուլտիմոդել, անջատիչ, դինամիկ բատչինգ)։

KServe (K8s-national, autoscaling HPA/KPA, կանարի)։

VLM/TGI-ի համար LLM-տոկենիզացիայի և բարձր արտադրողական ինդուկցիայի համար (paged-attention, KV-kash offlood)։

ONNX Runtime/TronorRT-LLM-ը կազմելու և արագացնելու համար։

Օպտիմիզացում

Քվանտացիա ՝ INT8/FP8/INT4 (պերցինալ/տրամաչափություն, AWQ/GPTQ) - առցանց զգույշ, չափել որակը։

Գրաֆիկի հավաքածուը ՝ TultorRT, TorchInductor/XLA, fused-kernels։

Բատչինգ/միկրոբատչինգ 'դինամիկ և ստատիկ; для LLM — continuous batching.

KV-kash: Գնդակը պահանջների, offlood CPU/NVMe-ի միջև երկար կոնտեքստերում։

Սպեկուլյատիվ ինդեքսը 'նախագծի մոդել + verifidator թոկեն-արտասանության արագացման համար։

Tokens/ենթատեքստերը, վաղ կանգառը, stop-բառերը, time-budget-ը հարցման համար։

Դոպլոյի քաղաքականությունը

A/B, kanari, shadow - լատենտության/որակի/բիզնես մետրի համեմատություն։

Բլու-գրինը 'առանց դաունթայմի։

Ռոլբեքը SLO/սխալներով։

6) Դասընթացը/ֆայնթյունինգը

DDP/FSDP/ZeRO: բաշխված հիշողությունը/գրադիենտները, NVLink/տեղաբանությունը։

Chekpoints: retremental/ամբողջական, vs I/O. հաճախականությունը։

Mixed Precision: bf16/fp16 + loss scaling; պրոֆիլավորել։

Դանասեթ Շարդինգ 'միատեսակ իտերատոր, հանգույցների կրկնօրինակում։

Առաջնահերթությունները 'ընդհատվող ջոբները (www.emptible) հօգուտ սերվինգի։

Ինքնավար դելպլինները ՝ wwww.rain entrain prodrecter-ը կանխատեսում է առաջխաղացումը RF-ում gate-2019-ում։

7) MLOps-ը և պլատֆորմը

Մոդելների իրականացումը 'վարկածներ, ստորագրություններ, կախվածություն, լիցենզիա/կշիռների օգտագործման իրավունք։

CI/CD մոդելները 'համատեղելիության թեստեր, ռեգրեսիա, quality-գեյթ, անվտանգ դոպլիա։

Ֆիչեստորը ՝ 108/onium (feature parity), TTL և backfill։

Express/Model Lineage: Մայրուղին ամսաթվից մինչև զեկույցը/փորձը։

Prompts/ձևանմուշների կատալոգը LLM-ի համար (տարբերակումը)։

8) Դիտարկումը և SLO-ն

Առցանց մետրիկները

P50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy, հիշողություն, սխալներ։

LLM առանձնահատկությունները 'պտտվել են մուտքագրման/եզրակացության վրա, պատասխանների միջին երկարությունը, սահմաններից հրաժարվելու մասը, քեշ-hit KV-ը։

Որակը 'ավտոմատ ռեգրեսիայի թեստեր (230), առցանց հեռուստատեսություն (բովանդակություն, թունավորում, ճշգրտություն ոսկու նմուշների վրա)։

Բիզնես-SLO 'կերպարների փոխակերպումը, հակաֆրոդի ճշգրտությունը, պահպանումը։

Alerta 'r99/gent աճը, tokens/s անկումը, batch-interl քայքայումը, VFC/PCIE-throttle սպառումը, rate-limit ձախողումների աճը։

9) Անվտանգություն, ընկերակցություն և սեփականաշնորհում

PII/finden 'հաշվարկների և տվյալների սեգմենտացիա տարածաշրջաններում, մեկ/մեկ տրանզիտում կոդավորումը, հոսանքը։

Գաղտնիքներ/բանալիներ ՝ KFC/Secrets Live; բացառել պահեստները պատկերների/կոդերի մեջ։

LLM-ի ելույթի քաղաքականությունները 'անվտանգության ֆիլտրեր, red-teaming, prompts/պատասխաններ (անանուն)։

Լիցենզիաներ 'նամակներին համապատասխանեցնել ամսաթվերին/քաշին։ «07-redistribae «/առևտրային սահմանափակումներ։

Թենանտների մեկուսացումը 'namespace-RBAC, ցանցեր, MMS սլայզեր, լիմիտներ և քվոտաներ։

10) Արժեք և ֆիենկո

Կապասիտի պլանավորումը 'բեռի ավելցուկ (RPS, հոսող/վրկ), կիսագնդի և արշավների պոչերը։

Արգելոց/Spot: Խառը շուլեր (reserved + spot/wwww.emptible) 'առաջադրանքների համապատասխան արտադրությամբ և chekpoints։

Ավտոսկեյլ 'HPA/KPA RPS/queue depth/GPU-util; «ջերմ մեկնարկը» 'ծանրաբեռնված քաշով։

Մոդելային կենդանաբանական այգի 'կրճատեք տարբերակների քանակը։ օգտագործեք հարմարեցում (LoRA/PEFT) փոխարենը ամբողջությամբ։

Քաշ 'սաղմեդինգներ/թանկարժեք հարցումների արդյունքները, KV-քեշի գնդակը LLM-ի համար։

Հոսանքների օպտիմիզացումը 'պրոմպտի սեղմումը, retrieval-augmented generation (RAG), rerank մինչև 108։

11) Multiregion, HA և DR

Action/Acterving-ը ավելի մոտ է օգտագործողին, գլոբալ routing (latency-based)։

Քաշների և վերջերի կրկնապատկումը ամբողջականության ստուգմամբ։ մեղք գործելով թողարկումների ժամանակ։

DR պլանը 'AZ/տարածաշրջանի կորուստը, պահեստային փամփուշտի վրա ռոտացիան, կախվածության վերահսկումը կենտրոնացված պայմանագրից։

Chaos-օրեր 'GPU-nood/ցանցային կոդերի/wwww.ru-ի ձախողման թեստեր։

12) Խմբակցությունների ձևանմուշները (հասկացություններ)

Triton-ը դինամիկ բատչինգ է

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe-ը կանարի է

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

VLM-ը (գաղափարներ)


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) LLM առանձնահատկությունները ՝ RAG և որոնման համակարգը։

Ինդեքսավորումը 'chanking, ambedings, ANN շարդինգը' tenae/entale '։

Rerank: թեթև մոդել CPU/GPU-slase-ի վրա ճշգրտության բարձրացման համար։

Cash prompts/ենթատեքստեր 'dedup, canonicalization։

Ցիտացիայի/պատասխանատվության քաղաքականությունը զգայուն օրինագծերի համար (KUS/կանոնները)։

14) Ներդրման չեկի ցուցակ

1. Տեղադրեք SLO (p95 latency/tokens/s, հասանելիություն) և բեռի ավելցուկ։

2. Կոտրեք կլաստերը փամփուշտների վրա (serving/train/R & D), մուտքագրեք քվոտաներ/գերակայություններ։

3. Միացրեք RDMA/NCCL-ը և տրամաբանորեն հասկանալի պլանավորումը։

4. Պարամետրերը ՝ կշիռներ, թվասեթներ, ֆիչեստոր (on07/105), վեկտորային BD։

5. Ընտրեք serving-stek (Triton/KServe/vLLM), ավելացրեք բատչինգը/KV-kash/քվանտացիա։

6. Մոդելների, CI/CD, kanari/shadou-depla։

7. Ուշադրություն դարձրեք ՝ 108 + բիզնես մետրեր, որակներ, ուղեգիր։

8. Մուտքագրեք անվտանգության քաղաքականությունը/PII, լիցենզիա, աուդիտ։

9. Օպտիմիզացրեք TCO: reserved + spot, ավտո սկեյլ, քեշը, PEFT-ը ամբողջական կլոնների փոխարեն։

10. Պատրաստեք HA/DR և կատարեք game-day։

15) Անտիպատերնի

«Մեկ մեծ GPU-ն ամեն ինչի վրա» առանց փամփուշտների և գերակայությունների։

Դինամիկ բատչինգի և KV քեշի բացակայությունը LLM-ի համար պլանավորվում է p99 և արժեքի պայթյուն։

Դասընթացը և սերվինգը մեկ փամփուշտի վրա առանց SLO պատահարի։

Որակի/անվտանգության զրոյական հեռաչափությունը ցույց է տալիս աննկատ դեգրադացիաներ և ռիսկեր։

Կենտրոնացված մոնոլիտը առանց ֆիչեստորի/ռուսական մոդելների բացակայում է։

Քաշի/տվյալների անտեսումը։

Արդյունքները

Հաջողակ AI ենթակառուցվածքը GPU-ի փամփուշտներն են 'խելացի պլանավորմամբ, բարձր ցանցով և ճիշտ պարամետրերով, serving (batching, kash, քվանտացիա, կազմավորում), հասուն MLOps և խիստ SLO-ով։ Անվտանգության/PII, բազմաբնույթ HA/DR և մտածված ֆինոպսի հետ միասին պլատֆորմը տալիս է կայուն p99, վերահսկվող դոլար/հարցում և նոր մոդելների արագ ներդրումը 'հակաֆրոդից մինչև կերպարներ և LLM օգնականներ։

AI ենթակառուցվածքը և GPU-pula

Live ռեզյումե

Պլանավորողները

GPU Կուսակցությունը

Օպտիմիզացում

Դոպլոյի քաղաքականությունը

Արդյունքները

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով