जीपीयू नोड्स और एमएल गणना

संक्षिप्त सारांश

जीपीयू पर एक सफल एमएल स्टैक हार्डवेयर, सॉफ्टवेयर, नियोजन, डेटा और अवलोकन समाधानों का एक संग्रह है। क्लस्टर को समान रूप से अच्छा करने में सक्षम होना चाहिए:

1. ट्रेन मॉडल (उच्च उपयोग, तेज चौकियों, बाधित सहिष्णुता)

2. सेवा निष्कर्ष (उच्च रूपांतरण पर कम p95-विलंबता),

3. लागत अनुमानित धन (FinOps, कोटा, बहु-किरायेदारी),

4. सुरक्षित रहें (अलगाव, आपूर्ति श्रृंखला, तराजू/डेटासेट का नियंत्रण)।

हार्डवेयर और टोपोलॉजी

GPU और मेमोरी

HBM वॉल्यूम और बैंड LLM/RecSys के लिए "कच्चे TFLOPS" की तुलना में अधिक महत्वपूर्ण है।

कई छोटे अनुरोधों के अनुमान के लिए - अंतर्निहित स्मृति (केवी-कैश) और उच्च घड़ियों/बिजली सीमा की प्राथमिकता।

कनेक्टिविटी

NVLink/NVSwitch - तेजी से सभी को कम करने के लिए नोड के अंदर।

InfiniBand/RoCE - DDP/FSDP (≥ 100-200 Gb/s) के लिए अंतर-नोड एक्सचेंज।

PCIe पेड़: NIC और GPU को एक ही NUMA नोड पर रखने की कोशिश करें; हॉट पीसीआईई-स्विच अड़ चन से बचें।

बेसिक BIOS/होस्ट ट्यूनिंग

प्रदर्शन मोड, सी-स्टेट्स को अक्षम करना (या न्यूनतम वृद्धि), NUMA जागरूकता, ASPM महत्वपूर्ण PCIe पर बंद।

पावर: स्थिर प्रोफाइल, आक्रामक शक्ति-बचत नहीं - अन्यथा p99 "कांपता है।"

बेसिक सॉफ्ट स्टैक

NVIDIA + CUDA + CuDNN/TensorRT संगतता मैट्रिक्स ड्राइवरों से मेल खाता है।

कंटेनरों के अंदर GPU के लिए NVIDIA कंटेनर टूलकिट।

NCCL (सामूहिक), UCX (परिवहन), शीर्ष/xFormers/फ्लैश-ध्यान - गति के लिए।

तेजी से NVMe/IB पर वैकल्पिक GDS (GPUDirect भंडारण) - डेटा प्रवाह को गति देता है।

GPU के लिए Kubernetes

मुख्य घटक

NVIDIA GPU ऑपरेटर (ड्राइवर, DCGM, डिवाइस-प्लगइन)।

NVIDIA उपकरण प्लगइन - संसाधन निर्यात 'nvidia। com/gpu '।

MIG (A100/H100) - पृथक प्रोफाइल में एक भौतिक GPU का विभाजन (उदाहरण के लिए, '1g)। 10gb ')।

टाइम-स्लाइसिंग - छोटे अनुमान कार्यों के लिए समय में GPU का तार्किक विभाजन।

नोड फीचर डिस्कवरी - GPU प्रकार/टोपोलॉजी द्वारा लेबल।

योजना और अलगाव

Tains/Telerations/NodeSelectors प्रशिक्षण/अनुमान/प्रयोगों को अलग करने के लिए।

NUMA संरेखण के लिए टोपोलॉजी प्रबंधक और CPU प्रबंधक (स्थिर)।

ज्वालामुखी/Slurm पर K8s/Ray - कतारें, प्राथमिकताएं, बड़ी नौकरियों के लिए पहले से।

पॉड में एक GPU अनुरोध का एक उदाहरण:

yaml resources:
limits:
nvidia. com/gpu: 1 # or MIG profile: nvidia. com/mig-1g. 10gb: 1 requests:
nvidia. com/gpu: 1

एक समर्पित प्रशिक्षण पूल के लिए दागी/आत्मीयता का उदाहरण:

yaml tolerations:
- key: "gpu-train"
operator: "Exists"
effect: "NoSchedule"
nodeSelector:
gpu. pool: "train"

सीखना: स्केल और स्थिरता

संगोष्ठी

डीडीपी - मानक डेटा संगति।

FSDP/ZeRO - शार्डिंग पैरामीटर/ओला/ऑप्टिमाइज़र, मेमोरी को कम करता है।

टेंसर/पाइपलाइन समानांतर - बहुत बड़े एलएलएम के लिए; NVLink/IB की आवश्यकता है।

ढाल संचय - स्मृति चोटियों को बढ़ाए बिना प्रभावी बैच को बढ़ाता है।

मिश्रित सटीकता और स्मृति अनुकूलन

एएमपी (bf16/fp16) + हानि स्केलिंग; के लिए - जहां संभव हो।

सक्रियण/ग्रेडिएंट चेकपॉइंटिंग, लंबे अनुक्रमों के लिए फ्लैश-ध्यान।

अनुमान के लिए तैयार करने के लिए पृष्ठित/चंक केवी-कैश।

जाँच और दोष सहिष्णुता

रिटिंग के साथ तेज एनवीएमई/ऑब्जेक्ट के लिए बार-बार वृद्धिशील चौकियाँ।

आइडेम्पोटेंट जैब्स (दोहरावदार घाव-पहचानकर्ता)।

स्पॉट-स्थिरता: हम SIGTERM को पकड़ ते हैं, जल्दी से राज्य में विलय करते हैं; शेड्यूलर कार्य को कतार में लौटा देता है।

महत्वपूर्ण NCCL/नेटवर्क चर (उदाहरण)

bash
NCCL_IB_HCA=mlx5_0
NCCL_SOCKET_IFNAME=eth1
NCCL_P2P_LEVEL=NVL
NCCL_MIN_NRINGS=8
NCCL_NET_GDR_LEVEL=SYS

अनुमान: कम विलंबता, उच्च वापसी

फ्रेमवर्क की सेवा

Triton Infence Server TensorRT/ONNX/TS/PyTorch के लिए एक एकल सर्वर है।

vLM/TGI/TensorRT-LLM - LLM विशेषज्ञ (पृष्ठ-ध्यान, प्रभावी KV-कैश, निरंतर बैचिंग)।

त्वरण तकनीक

परिमाणीकरण: INT8/FP8/quantum। -aware (AWQ, GPTQ) - VRAM में कमी, TPS में वृद्धि।

बैचिंग/निरंतर बैचिंग: p95 वृद्धि के बिना अनुरोधों के फटने की सेवा करें।

एचबीएम में केवी-कैश पिनिंग, संदर्भ में कमी; सट्टा डिकोडिंग (ड्राफ्ट मॉडल)।

GPU पर संगोष्ठी: MIG/टाइम-स्लाइस के साथ कई धागे/मॉडल।

लक्ष्य प्रोफाइल (SLO उदाहरण)

चैट मॉडल प्रतिक्रिया की p95 विलंबता ≤ 300 एमएस प्रति उपसर्ग/टोकन;

टारगेट प्रोफाइल पर थ्रूपुट ≥ 200 वर्तमान/एस/जीपीयू;

p99 पूंछ को शेड्यूलिंग (QoS वर्गों और संदर्भ सीमा) द्वारा नियंत्रित किया जाता है।

ट्राइटन तैनाती (टुकड़ा)

yaml env:
- name: CUDA_VISIBLE_DEVICES value: "0"
- name: TRITONSERVER_MODEL_CONTROL value: "explicit"
args: ["--backend-config=tensorrt,output_memory_pool_size=1024"]

डेटा और पाइपलाइन

प्रारूप: स्ट्रीमिंग रीडिंग के लिए Parquet/Arrow, Webdataset (tar-shards)।

प्रीफेच/Async I/O: DataLoader- ы с पिन-मेमोरी, प्रीफेच-पाइपलाइन, GDS।

ऑनलाइन सुविधाओं के लिए सुविधा स्टोर (धोखाधड़ीविरोधी/सिफारिशें)।

वर्शनिंग: डीवीसी/लेक एफएस/एमएलफ्लो मॉडल रजिस्ट्री; डेटासेट, कोड और हाइपरपैरामीटर पर कब्जा करें।

अवलोकन और एसएलओ

डीसीजीएम/प्रोमेथियस मेट्रिक्स (न्यूनतम)

'dcgm _ sm _ util', 'dcgm _ fb _ used', 'dcgm _ power _ usage', 'dcgm _ pcie _ rx/tx', 'dcgm _ dram _ bw'

तापमान/आवृत्तियां और ईसीसी त्रुटियां (विकास के लिए अलर्ट)।

हासिल व्यवसाय और स्टाल कारण (संकीर्ण कोर परत)।

सेवा मेट्रिक्स

जनरेटिव मॉडल: टोकन/सेकंड, p50/p95/p99, कतार गहराई, स्मृति विफलता।

प्रशिक्षण: चरण/सेकंड, युग समय, सभी-कम दक्षता, I/O में% समय।

SLO पैनल: अनुपालन p95, "त्रुटि बजट" (≥ 99। 5% "सफल" निष्कर्ष)।

चेतावनी (विचार)

'fb _ used/ fb_total> 0। 95 '5 мин → थ्रॉटल/स्केल-आउट।

एक ही निपटान - मॉडल/कोड गिरावट के साथ एन% द्वारा टीपीएस ड्रॉप।

ईसीसी/तापमान वृद्धि → नौकरी/घटना लोहे के प्रवास।

सुरक्षा और अलगाव

मल्टी-टेनेंसी: एमआईजी प्रोफाइल या प्रति-टीम नोड्स, नेमस्पेस/कोटा।

IOMMU/PSP, cgroups, विशेषाधिकार प्राप्त कंटेनर बैरिंग, CAP _ constrent।

एमपीएस (मल्टी-प्रोसेस सर्विस) - साफ-सुथरा: उच्च निपटान, लेकिन अलगाव एमआईजी की तुलना में कमजोर है।

आपूर्ति श्रृंखला: कंटेनर हस्ताक्षर (cosign), कलाकृतियों का सत्यापन, मॉडल अपलोड का नियंत्रण।

डेटा/वजन: डिस्क पर एन्क्रिप्शन, एक्सेस कंट्रोल (ABAC/RBAC), मॉडल के वॉटरमार्क/हैश रजिस्टर।

FinOps: लागत, कोटा, ऑटोस्केल

नोड पूल: 'ट्रेन' (ऑन-डिमांड/रिजर्व), 'इन्फर' (मिक्स ऑन-डिमांड + स्पॉट), 'एक्सपी' (स्पॉट-हैवी)।

स्पॉट स्थिरता: लगातार चौकियों, तेजी से तर्क, प्राथमिकताओं के साथ ज्वालामुखी कतारें।

आरक्षण/आरआई/बचत योजनाएं एक स्थिर आधार पर; ऑटो-अक्षम खाली नोड्स।

राइट-साइज़िंग मॉडल: "पूर्ण" मॉडल के बजाय परिमाणीकरण/LoRA एडेप्टर; SLA के तहत MIG प्रोफाइल चुनें।

बजट की रूपरेखा: जीपीयू-घंटे का कोटा प्रति-टीम, "1k अनुरोध/टोकन के लिए लागत।"

YAML पैटर्न और कलाकृतियाँ

1) एमआईजी प्रोफाइल (वैचारिक)

yaml apiVersion: nvidia. com/v1 kind: MigStrategy metadata: { name: mig-a100-1g10gb }
spec:
deviceFilter: "a100"
mode: single resources:
- profile: "1g. 10gb"
count: 7

2) प्रशिक्षण के लिए ज्वालामुखी कतार

yaml apiVersion: scheduling. volcano. sh/v1beta1 kind: Queue metadata: { name: train-q }
spec:
weight: 100 reclaimable: true capability:
resources:
- name: nvidia. com/gpu quantity: 64

3) केईडीए गहराई से बारी-बारी से अनुमान ऑटोस्केल के लिए

yaml apiVersion: keda. sh/v1alpha1 kind: ScaledObject metadata: { name: llm-infer }
spec:
scaleTargetRef: { name: llm-deploy }
pollingInterval: 5 minReplicaCount: 2 maxReplicaCount: 80 triggers:
- type: rabbitmq metadata:
queueName: infer-queue mode: QueueLength value: "200"

GPU क्लस्टर स्टार्टअप चेकलिस्ट

एनवीलिंक/आईबी टोपोलॉजी मानचित्र; एक NUMA पर NIC/GPU।
ड्राइवर/CUDA सुसंगत, ऑपरेटर/उपकरण-प्लगइन संस्थापित।
एमआईजी/टाइम-स्लाइसिंग प्रोफाइल और नेमस्पेस के लिए कोटा।
डीडीपी/एफएसडीपी पाइपलाइन का मंचन करने पर परीक्षण किया गया; चेकपॉइंट तेज हैं।
ट्राइटन/वीएलएम - निरंतर बैचिंग; p95 और TPS लक्ष्य निर्धारित हैं।
DCGM/Prometheus/Grafana + ECC अलर्ट/तापमान/मेमोरी/TPS।
सुरक्षा नीतियां (PSP, cosign, वजन obfuscation/नियंत्रण)।
FinOps: स्पॉट/री पूल, $/1k टोकन रिपोर्ट, निष्क्रिय ऑटो-शटडाउन।

सामान्य त्रुटियाँ

प्रशिक्षण और अनुमान एक ही नोड्स पर दाग के बिना मिलाया जाता है → GPU/IO एक दूसरे के लिए "आरी" है।

कोई चौकियों और पूर्वनिर्धारण तर्क - स्थान पर प्रगति का नुकसान।

DCGM-metrics की अनुपस्थिति - "अंधा" निपटान और ओवरहीटिंग।

NUMA/PCIe टोपोलॉजी की अनदेखी - कम NCCL बैंडविड्थ।

गलत एमआईजी/टाइम-स्लाइस → p99 विलंबता और "आउट ऑफ मेमोरी" प्रोफाइल।

TPS/विलंबता - देर से पैमाने के बजाय CPU द्वारा HPA।

iGaming/fintech विशिष्टता

Antifraud/स्कोरिंग: SLA निष्कर्ष ≤ 50 ms p95 महत्वपूर्ण रास्तों पर (भुगतान/निष्कर्ष); "फॉलबैक" मॉडल को हल्का रखें।

सिफारिशें/निजीकरण: रात में ऑन-पॉलिसी/ऑफ-पॉलिसी लर्निंग, ऑनलाइन-फीचर्स - कम विलंबता।

चैट सहायक/आरएजी: सामग्री कैश, अनुरोध Deduplication, गार्ड; शार्डिंग वेक्टर खोज सूचकांक।

चोटियाँ (मैच/टूर्नामेंट): प्री-वार्म अप मॉडल/केवी-कैश, वीआईपी के लिए मिनरेप्लिकास, क्यूओएस कक्षाएं बढ़ाएं।

कुल

GPU कंप्यूटिंग स्टैक वास्तव में कुशल हो जाता है जब हार्डवेयर (HBM/NVLink/IB), सॉफ्टवेयर मैट्रिक्स (CUDA/NCCL), शेड्यूलिंग (MIG, कतार्ज़), डेटा (फास्पाइपलाइन/GDS S S M/SLO) और लागत (FinOps/कोटा) कॉन्सर्ट में काम करते हैं। इसे IaC और क्लस्टर नीति में पिन करें - और आपको अनुमानित सीखने की गति, स्थिर कम p95-विलंबता निष्कर्ष और एक पारदर्शी GPU घड़ी अर्थव्यवस्था मिलती है।