एआई बुनियादी ढांचा और जीपीयू पूल

(धारा: प्रौद्योगिकी और बुनियादी ढांचा)

संक्षिप्त सारांश

उत्पादन-एआई "एक सर्वर पर एक मॉडल" नहीं है, लेकिन जीपीयू नोड्स का एक समूह, साझा त्वरक पूल, एकीकृत सेवारत, डेटा/सुविधा, अवलोकन और लागत प्रबंधन है। IGaming के लिए, यह वास्तविक समय में महत्वपूर्ण है: धोखाधड़ी विरोधी, निजीकरण, चैटबॉट्स, एलएलएम सहायक, गेम/स्टॉक सिफारिशें। बेसिक ईंटें: योजना के लिए कुबर्नेट्स/स्लर्म, वर्कलोड का अलगाव, हाई-स्पीड नेटवर्क (RDMA के साथ), फास्ट स्टोरेज, परिपक्व MLOP, और "प्रबलित कंक्रीट" SLLO LO O O O O S S S S S।

1) वास्तुशिल्प मानचित्र

परतें:

1. कम्प्यूटिंग क्लस्टर: जीपीयू नोड्स (ए/एच कक्षाएं, एएमडी/आरओसीएम, इंटेल गौडी, आदि), सीपीयू नोड्स प्रीप्रोसेसिंग/फीचर के लिए।

2. नेटवर्क: 100G + ईथरनेट/IB, RDMA (RoCEv2), NCCL टोपोलॉजी, QoS।

3. भंडारण: वस्तु (S3-साझा), वितरित POSIX (Ceph/grid), स्थानीय NVMe-खरोंच।

4. डेटा/विशेषताएं: फिसेस्टर (ऑनलाइन/ऑफ़लाइन), वेक्टर डेटाबेस (एएनएन), कैश (रेडिस), कतारें।

5. एमएल-प्लेटफ़ॉर्म: कलाकृतियों और मॉडल का पंजीकरण, पाइपलाइन (सीआई/सीडी), संस्करण नियंत्रण, कोड के रूप में सुविधाएँ।

6. सेवा परत: ट्राइटन/केसेरवे/वीएलएम/टेक्स्ट-जेनरेशन-इंजेक्शन (टीजीआई), ए/वी/कैनरी-तैनाती, ऑटोरेसाइज़।

7. शासन और सुरक्षा: पीआईआई, रहस्य, लेखा परीक्षा, निर्यात नीतियां, वजन/डेटासेट लाइसेंस।

विशिष्ट भार:

ऑनलाइन स्कोरिंग (p95 ≤ 50-150 एमएस) - विरोधी धोखाधड़ी, सिफारिशें, रैंकिंग।
एलएलएम-सेवारत (128-512 टोकन के लिए p95 ≤ 200-800 एमएस) - चैट/एजेंट/संकेत।
बैच एनालिटिक्स/अतिरिक्त प्रशिक्षण - रात की खिड़कियां, ऑफ़ लाइन मैट्रि
लड़ ना/अनुकूलन - समय-समय पर, ऑनलाइन की तुलना में कम प्राथमिकता के साथ।

2) जीपीयू पूल और शेड्यूलिंग

पूल मॉडल

पूल की सेवा: छोटे अनुरोध, उच्च कसाई, सख्त एसएलओ।

प्रशिक्षण/Finetuning पूल: लंबी नौकरियां, वितरित प्रशिक्षण (DDP)।

पूल "आर एंड डी/प्रयोग": कोटा/सीमा, पूर्वनिर्धारण की अनुमति।

सीपीयू/प्री-/पोस्ट-प्रोसेसिंग पूल: सामान्यीकरण, टोकन, सीपीयू पर रेरैंक।

शेड्यूलर

Kubernetes (+ डिवाइस-प्लगइन, NodeChingDiscown, tents/Telerations, Class, PodProformation/Preemption)।

स्लर्म (अक्सर एचपीसी प्रशिक्षण के लिए) - अलग श्रमिकों के माध्यम से K8s के साथ मिलाया जा सकता है।

फेयर शेयर और कोटा: जीपीयू, सीपीयू, मेमोरी के लिए नेमस्पेस कोटा; "बैंक" जीपीयू-घंटे; नामस्थान/परियोजना पर सीमा।

GPU विभाजन

MIG (मल्टी-इंस्टेंस GPU): त्वरक को पृथक स्लाइस (सर्फिंग/मल्टी-टेनेंसी के लिए) में काटना।

एमपीएस: छोटे कार्यों के लिए एसएम साझाकरण (हस्तक्षेप की निगरानी करें)।

NVLink/PCIe: टोपोलॉजी अवेयर शेड्यूलिंग पर विचार करें।

K8s एनोटेशन (अवधारणा) का उदाहरण:

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) नेटवर्क और अंतर-साइट प्रदर्शन

NCCL allrudges के लिए RDMA (RoCEv2); ECN/PFC सेटिंग्स, ट्रैफिक क्लासों का अलगाव।

स्थानीयकरण: एक "कारखाने" (पॉड/होस्ट/ऑप्टिक्स) के अंदर प्रशिक्षण, सेवारत - उपयोगकर्ता (किनारे/क्षेत्र) के करीब।

कांगेस्ट कंट्रोल: ट्यून किए गए प्रोफाइल, जंबो फ्रेम, पिन-निंग इंटरफेस।

4) भंडारण और डेटा

वजन/कलाकृति भंडारण: वस्तु (संस्करण, अपरिवर्तनीयता)।

डेटासेट/विशेषताएं: लेकहाउस (डेल्टा/आइसबर्ग/हुडी) + ऑफ़ लाइन फ़िसेस्टर; ऑनलाइन-फिचेस्टर (मिलीसेकंड एसएलए)।

वेक्टर डेटाबेस (एएनएन): Fais/ScaNN/त्वरक, या विक्रेता वेक्टर इंजन; Shardiness, HNSW/IVF, प्रतिकृति।

स्थानीय एनवीएमई कैश: ठंडी शुरुआत के लिए तराजू/एम्बेडिंग को गर्म करना।

5) सेवारत मॉडल

फ्रेमवर्क्स

ट्राइटन इंसेंस सर्वर (मल्टीमॉडल, मल्टी-टाइम, डायनेमिक कसाई)।

KServe (K8s-native, HPA/KPA, कैनरी को स्वचालित करना)।

एलएलएम टोकन और उच्च-प्रदर्शन डिकोडिंग (पृष्ठ-ध्यान, केवी कैश ऑफलोड) के लिए वीएलएम/टीजीआई।

ONNX रनटाइम/TensorRT-LLM - संकलन और त्वरण के लिए।

अनुकूलन

परिमाणीकरण: INT8/FP8/INT4 (प्रतिशत/अंशांकन, AWQ/GPTQ) - ऑनलाइन सावधानीपूर्वक, गुणवत्ता को मापते हैं।

ग्राफ संकलन: TensorRT, TorchInductor/XLA, फ्यूज्ड-कर्नेल।

कसाई/माइक्रोबैचिंग: गतिशील और स्थिर; для एलएलएम - निरंतर बैचिंग।

केवी कैश: अनुरोध के बीच साझा करना, लंबे संदर्भों के साथ सीपीयू/एनवीएमई पर ऑफ़ लाइन।

सट्टा डिकोडिंग: टोकन उत्पादन में तेजी लाने के लिए ड्राफ्ट मॉडल + सत्यापन।

टोकन/संदर्भ सीमा, प्रारंभिक पड़ाव, स्टॉपवर्ड, समय-बजट प्रति अनुरोध।

नीतियों को तैनात करें

ए/बी, कैनरी, छाया - विलंबता/गुणवत्ता/व्यवसाय मैट्रिक्स की तुलना।

नीला हरा - कोई डाउनटाइम नहीं।

एसएलओ/त्रुटियों पर रोलबैक।

6) प्रशिक्षण/लड़ाई

DDP/FSDP/ZeRO: वितरित मेमोरी/ग्रेडिएंट, NVLink/टोपोलॉजी लेखांकन।

चौकियों: वृद्धिशील/पूर्ण, आवृत्ति बनाम I/O.

मिश्रित परिशुद्धता: bf16/fp16 + हानि स्केलिंग; प्रोफ़ाइल स्थिर

डेटासेट शार्डिंग: समान पुनरावृत्ति, नोड्स में प्रतिकृति।

प्राथमिकताएं: सर्फिंग के पक्ष में बाधित नौकरियां (पूर्वनिर्धारित)।

स्टैंडअलोन पाइपलाइनें: गेट मानदंड के अनुसार डेटा → ट्रेन → eval → पंजीकरण → PROD में प्रगति।

7) MLOps और प्लेटफ़ॉर्म

मॉडल का रजिस्टर: संस्करण, हस्ताक्षर, निर्भरता, लाइसेंस/तराजू का उपयोग करने का अधिकार।

सीआई/सीडी मॉडल: संगतता परीक्षण, प्रदर्शन प्रतिगमन, गुणवत्ता द्वार, सुरक्षित तैनाती।

Fichestor: ऑफ़ लाइन/ऑनलाइन स्थिरता (फीचर समता), TTL और बैकफिल।

डेटा/मॉडल वंश: डेटासेट से रिपोर्ट/प्रयोग तक का पता लगाएं।

एलएलएम (वर्शनिंग) के लिए प्रांप्ट/टेम्प्लेट की निर्देशिका।

8) अवलोकन और एसएलओ

ऑनलाइन मैट्रिक्स:

लेटेंसी पी 50/पी 95/पी 99, टोकन/एस, बैच अधिभोग, कतार प्रतीक्षा, जीपीयू-यूटिल/एसएम अधिभोग, मेमोरी, त्रुटियां।
एलएलएम बारीकियों: I/O टोकन, औसत प्रतिक्रिया लंबाई, सीमा द्वारा विफलताओं का प्रतिशत, केवी कैश हिट।
गुणवत्ता: स्वचालित प्रतिगमन परीक्षण (ऑफ़लाइन), ऑनलाइन टेलीमेट्री (सामग्री झंडे, विषाक्तता, सोने के नमूनों पर जारी करने की सटीकता)।
बिजनेस एसएलओ: निजीकरण रूपांतरण, धोखाधड़ी विरोधी सटीकता, प्रतिधारण।

अलर्ट: p99/कतार वृद्धि, टोकन/एस ड्रॉप, बैच-फिल गिरावट, VRAM/PCIe-थ्रॉटल थकावट, दर-सीमा विफलता वृद्धि।

9) सुरक्षा, अनुपालन और गोपनीयता

पीआईआई/वित्तीय डेटा: क्षेत्र द्वारा गणना और डेटा का विभाजन, आराम/पारगमन में एन्क्रिप्शन, टोकन।

रहस्य/कुंजी: केएमएस/गोपनीयता प्रबंधक; छवियों/कोड में भंडारण को छोड़ कर।

एलएलएम आउटपुट नीतियां: सुरक्षा फिल्टर, रेड-टीमिंग, प्रांप्ट/प्रतिक्रियाओं की लॉगिंग (गुमनामी के साथ)।

लाइसेंस: डेटासेट/वजन के लिए लाइसेंस का अनुपालन; "नो-पुनर्वितरण "/वाणिज्यिक प्रतिबंध।

किरायेदार अलगाव: नेमस्पेस-आरबीएसी, नेटवर्क, एमआईजी स्लाइस, सीमा और कोटा।

10) लागत और फिनॉप्स

क्षमता योजना: टूर्नामेंट और अभियानों की लोड प्रोफाइल (आरपीएस, टोकन/सेकंड), "पूंछ"।

रिजर्व/स्पॉट: फिर से सेटिंग कार्यों और चौकियों के साथ मिश्रित पूल (आरक्षित + स्पॉट/पूर्वनिर्धारित)।

ऑटोस्केल: आरपीएस/कतार गहराई/जीपीयू-यूटिल द्वारा एचपीए/केपीए; गर्म तराजू के साथ "गर्म शुरुआत"।

मॉडल चिड़ियाघर: विकल्प कम करें; पूर्ण दोहराव के बजाय अनुकूलन (LoRA/PEFT) का उपयोग करें।

कैश: महंगे अनुरोधों के एम्बेडिंग/परिणाम, एलएलएम के लिए केवी कैश शेयरिंग।

टोकन का अनुकूलन: संकेतों का संपीड़न, पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी), पीढ़ी से पहले पुनर्मिलन।

11) बहु-क्षेत्र, एचए और डीआर

सक्रिय/सक्रिय सर्फिंग उपयोगकर्ता, वैश्विक मार्ग (विलंबता-आधारित) के करीब है।

अखंडता जांच के साथ तराजू और सुविधाओं की प्रतिकृति; रिलीज के दौरान कैश वार्मिंग।

डीआर योजना: AZ/क्षेत्र का नुकसान, बैकअप पूल में निकासी, केंद्रीकृत निर्देशिका पर निर्भरता का नियंत्रण।

अराजकता के दिन: GPU नोड/नेटवर्क डोमेन/भंडारण विफलता परीक्षण।

12) कॉन्फ़िगरेशन टेम्पलेट (अवधारणाएं)

ट्राइटन - गतिशील कसाई:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

केसर्वे - कैनरी:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

वीएलएम - लॉन्च (विचार):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) एलएलएम विशिष्टता: आरएजी और सर्च लूप

अनुक्रमण: 'किरायेदार/स्थानीय' द्वारा चैकिंग, एम्बेडिंग, एएनएन-शार्डिंग।

रेरैंक: सटीकता में सुधार के लिए लाइटवेट सीपीयू/जीपीयू स्लाइस मॉडल।

संकेत/संदर्भ कैश: dedup, canonicalization।

संवेदनशील डोमेन (सीसीपी/नियम) के लिए प्रशस्ति पत्र/देयता नीतियां।

14) कार्यान्वयन चेकलिस्ट

1. एसएलओ (p95 विलंबता/टोकन/एस, उपलब्धता) पर कब्जा करें और प्रोफाइल लोड करें।

2. क्लस्टर को पूल (सेवारत/ट्रेन/आर एंड डी) में विभाजित करें, कोटा/प्राथमिकताएं दर्ज करें।

3. RDMA/NCCL और टोपोलॉजिकल रूप से जागरूक शेड्यूलिंग सक्षम करें।

4. स्टोरेज सेट करें: तराजू, डेटासेट, फिसेस्टर (ऑनलाइन/ऑफ़लाइन), वेक्टर डेटाबेस.
5. सेवारत स्टैक (Triton/KServe/vLM) चुनें, कसाई/KV कैश/परिमाणीकरण जोड़ें.

6. मॉडल रजिस्टर, सीआई/सीडी, कैनरी/छाया तैनात करें।

7. अवलोकन करें: सिस्टम + बिजनेस मैट्रिक्स, गुणवत्ता, ट्रेसिंग।

8. सुरक्षा/पीआईआई नीतियां, लाइसेंस, ऑडिटिंग दर्ज करें।

9. TCO का अनुकूलन करें: पूर्ण क्लोन के बजाय आरक्षित + स्पॉट, ऑटोस्केल, कैश, PEFT।

10. HA/DR तैयार करें और एक गेम-डे है।

15) एंटीपैटर्न

पूल और प्राथमिकताओं के बिना "सभी के लिए एक बड़ा जीपीयू"।

एलएलएम के लिए गतिशील कसाई और केवी कैश की कमी - p99 और लागत का विस्फोट।

SLO की घटनाओं के बिना एक ही पूल पर प्रशिक्षण और सेवा।

शून्य गुणवत्ता/सुरक्षा टेलीमेट्री - सूक्ष्म गिरावट और जोखिम।

फिसेस्टर/मॉडल रजिस्टर के बिना केंद्रीकृत मोनोलिथ - कोई प्रजनन योग्यता नहीं।

पैमाने/डेटा लाइसेंस की अनदेखी।

सारांश

सफल एआई बुनियादी ढांचे में स्मार्ट शेड्यूलिंग जीपीयू पूल, उच्च नेटवर्क और सही भंडारण, कुशल सेवारत (कसाई, कैश, मात्रा, संकलन), परिपक्व एमएलओपी और सख्त एसएलओ शामिल हैं। सुरक्षा/पीआईआई, बहु-क्षेत्रीय एचए/डीआर और विचारशील फिनॉप्स के साथ संयुक्त, मंच एक स्थिर पी 99, नियंत्रित $/अनुरोध और नए मॉडल के तेजी से कार्यान्वयन - धोखाधड़ी से लेकर निजीकरण और एलएलएम सहायकों तक देता है।

एआई बुनियादी ढांचा और जीपीयू पूल

संक्षिप्त सारांश

शेड्यूलर

GPU विभाजन

अनुकूलन

नीतियों को तैनात करें

सारांश

हमसे संपर्क करें

त्वरित संपर्क

वीडियो जल्द ही अपडेट किया जाएगा

हम इस समय परियोजनाओं में बहुत व्यस्त हैं