البنية التحتية للذكاء الاصطناعي ومجمعات وحدة معالجة الرسومات

(القسم: التكنولوجيا والهياكل الأساسية)

موجز موجز

الإنتاج-الذكاء الاصطناعي ليس «نموذجًا واحدًا على خادم واحد»، ولكنه مجموعة من عقد وحدة معالجة الرسومات، ومجمعات مسرعات مشتركة، وخدمة موحدة، وبيانات/ميزة، وقابلية للمراقبة، وإدارة التكاليف. بالنسبة إلى iGaming، يعد هذا أمرًا بالغ الأهمية في الوقت الفعلي: مكافحة الاحتيال، والتخصيص، وروبوتات الدردشة، ومساعدي LLM، وتوصيات اللعبة/الأسهم. الطوب الأساسي: Kubernetes/Slurm للتخطيط، وعزل أعباء العمل، والشبكة عالية السرعة (100/200/400G مع RDMA)، والتخزين السريع، و MLOps الناضجة، و SLO «الخرسانة المسلحة».

1) الخريطة المعمارية

الطبقات:

1. مجموعة الحوسبة: عقد وحدة معالجة الرسومات (فئات A/H، AMD/ROCm، Intel Gaudi، إلخ)، عقد وحدة المعالجة المركزية للمعالجة المسبقة/الميزة.

2. الشبكة: 100G + Ethernet/IB، RDMA (RoCEv2)، طوبولوجيات NCCL، QoS.

3. التخزين: كائن (مشترك S3)، موزع POSIX (Ceph/grid)، NVMe-scratch محلي.

4. البيانات/الميزات: fichester (عبر الإنترنت/غير متصل بالإنترنت)، قواعد بيانات المتجهات (ANN)، ذاكرة التخزين المؤقت (Redis)، قوائم الانتظار.

5. ML-platform: register of articles and modelines, pipelines (CI/CD), version control, features as code.

6. طبقة الخدمة: Triton/KServe/vLLM/text-generation-indference (TGI)، A/V/canary-provoy، autorize.

7. الحوكمة والأمن: PII, Secrets, Audit, Export Policies, Weight/Datacet Licenses.

الأحمال النموذجية:

التسجيل عبر الإنترنت (p95 ≤ 50-150 ms) - مكافحة الاحتيال، التوصيات، الترتيب.
خدمة LLM (p95 ≤ 200-800 ms لرموز 128-512) - دردشة/وكلاء/مطالبات.
تحليلات الدفعة/تدريب إضافي - نوافذ ليلية، مقاييس غير متصلة بالإنترنت.
القتال/التكيف - بشكل دوري، مع أولوية أقل من الإنترنت.

2) مجمعات GPU والجدولة

نموذج البلياردو

مسبح التقديم: طلبات قصيرة، جزامات عالية، SLOs صارمة.
مجموعة التدريب/Finetuning: وظائف طويلة، تدريب موزع (DDP).
مجموعة «البحث والتطوير/التجارب»: الحصص/الحدود، الاستباق مسموح به.
وحدة المعالجة المركزية/وحدة المعالجة المركزية/مجمع المعالجة اللاحقة: التطبيع، الترميز، الترتيب في وحدة المعالجة المركزية.

الجداول

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (غالبًا لتدريب HPC) - يمكن خلطه مع K8s من خلال عمال منفصلين.
الحصة العادلة والحصص: حصص المساحة المخصصة لوحدة معالجة الرسومات ووحدة المعالجة المركزية والذاكرة ؛ ساعات عمل وحدة معالجة الرسومات «المصارف» ؛ حدود المساحة/المشروع.

تقسيم وحدة معالجة الرسومات

MIG (وحدة معالجة الرسومات متعددة الأمثلة): قطع المسرع إلى شرائح معزولة (لركوب الأمواج/الإيجارات المتعددة).
MPS: مشاركة SM للمهام الصغيرة (مراقبة التداخل).
NVLink/PCIe: ضع في اعتبارك جدولة Topology Aware.

مثال على الشروح K8s (المفهوم):

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3) أداء الشبكة والأداء المشترك بين المواقع

RDMA (RoCEv2) لـ NCCL allruges ؛ إعدادات ECN/PFC، عزل فئات المرور.
التوطين: التدريب داخل «مصنع» واحد (جراب/مضيف/بصريات)، التقديم - أقرب إلى المستخدم (الحافة/المنطقة).
Conster control: ملفات تعريف مضبوطة، إطارات جامبو، واجهات دبوس.

4) التخزين والبيانات

تخزين الوزن/القطع الأثرية: كائن (إصدار، ثبات).
مجموعات البيانات/الميزات: Lakehouse (Delta/Iceberg/Hudi) + fichester غير المتصل بالإنترنت ؛ fichestor (millisond SLAs).
قواعد بيانات ناقلات الأمراض (ANN): Faiss/ScaNN/المعجلات، أو محركات ناقلات البائعين ؛ ، HNSW/التلقيح الاصطناعي، تكرار.
ذاكرة التخزين المؤقت المحلية NVMe: تسخين المقاييس/التضمين لبداية باردة.

5) نماذج الخدمة

أطر العمل

Triton Infence Server (multimodel, multime-time, dynamic butching).
KServe (K8s-native, autoscalling HPA/KPA, canary).
vLLM/TGI للترميز LLM وفك التشفير عالي الأداء (انتباه استدعاء، تفريغ ذاكرة التخزين المؤقت KV).
وقت تشغيل ONNX/TensorRT-LLM - للتجميع والتسريع.

التحسينات

الكمية: INT8/FP8/INT4 (مئوية/معايرة، AWQ/GPTQ) - عبر الإنترنت بعناية، قياس الجودة.
تجميع الرسم البياني: TensorRT، TorchInductor/XLA، حبات مدمجة.
التزليق/التزليق بالميكروباتنج: ديناميكي وثابت ؛ для LLM - دفعة مستمرة.
مخبأ KV: المشاركة بين الطلبات، غير متصل بالإنترنت على وحدة المعالجة المركزية/NVMe مع سياقات طويلة.
فك تشفير المضاربة: مسودة النموذج + جهاز التحقق لتسريع الإنتاج الرمزي.
حدود الرمز/السياق، التوقف المبكر، كلمات التوقف، الميزانية الزمنية لكل طلب.

نشر السياسات

A/B، canary، shadow - مقارنة مقاييس زمن الوصول/الجودة/الأعمال.
الأزرق الأخضر - لا وقت توقف.
التراجع عن SLO/الأخطاء.

6) التدريب/القتال

DDP/FSDP/ZeRO: الذاكرة/التدرجات الموزعة، المحاسبة NVLink/topology.
نقاط التفتيش: تدريجي/كامل، التردد مقابل I/O.
الدقة المختلطة: bf16/fp16 + مقياس الخسارة ؛ استقرار الملف الشخصي.
Dataset Sharding: مكرر موحد، تكرار عبر العقد.
الأولويات: الوظائف القابلة للانقطاع (قابلة للإفراغ) لصالح ركوب الأمواج.
خطوط الأنابيب المستقلة: البيانات → تدرب → → تسجيل التقدم → في PROD وفقًا لمعايير البوابة.

7) MLOps والمنصة

سجل النماذج: النسخ والتوقيعات والتبعيات والتراخيص/الحق في استخدام الجداول.
نماذج CI/CD: اختبارات التوافق، تراجع الأداء، بوابات الجودة، الانتشار الآمن.
Fichestor: اتساق غير متصل/عبر الإنترنت (تكافؤ الميزات) و TTL و backfill.
Data/Model Lineage: trace from datest to report/experiment.
دليل المطالب/القوالب لـ LLM (إصدار).

8) إمكانية الرصد و SLO

المقاييس على الإنترنت:

Latency p50/p95/p99، الرموز/s، إشغال الدفعة، انتظار قائمة الانتظار، إشغال GPU-Util/SM، الذاكرة، الأخطاء.
تفاصيل LLM: رموز I/O، متوسط طول الاستجابة، النسبة المئوية للفشل حسب الحدود، ضرب مخبأ KV.
الجودة: اختبارات الانحدار التلقائي (غير متصلة بالإنترنت)، القياس عن بعد عبر الإنترنت (أعلام المحتوى، السمية، دقة الإصدار في عينات الذهب).
Business SLO: تحويل التخصيص، دقة مكافحة الاحتيال، الاحتفاظ.

التنبيهات: نمو p99/قائمة الانتظار، انخفاض الرموز/s، تدهور ملء الدفعات، استنفاد VRAM/PCIe-distle، نمو فشل حد السعر.

9) الأمن والامتثال والخصوصية

PII/البيانات المالية: تقسيم الحسابات والبيانات حسب المنطقة، التشفير عند الراحة/أثناء العبور، الترميز.
الأسرار/المفاتيح: KMS/Secrets Manager ؛ باستثناء التخزين في الصور/الرموز.
سياسات المخرجات LLM: المرشحات الأمنية، الفريق الأحمر، تسجيل المطالب/الاستجابات (مع إخفاء الهوية).
التراخيص: الامتثال لتراخيص مجموعات البيانات/الأوزان ؛ «عدم إعادة التوزيع «/القيود التجارية.
عزل المستأجر: مساحة الاسم - RBAC، والشبكات، وشرائح MIG، والحدود والحصص.

10) التكلفة والفينوبس

تخطيط القدرات: ملفات تعريف التحميل (RPS، رمز/ثانية)، «ذيول» البطولات والحملات.
الاحتياطي/الموقع: مجمعات مختلطة (محجوزة + موضعية/قابلة للتفريغ) مع مهام إعادة التحديد ونقاط التفتيش.
المقياس الذاتي: HPA/KPA بواسطة RPS/عمق قائمة الانتظار/وحدة معالجة الرسومات util ؛ «بداية دافئة» مع موازين دافئة.
نموذج حديقة الحيوان: تقليل الخيارات ؛ استخدم التكيف (LoRA/PEFT) بدلاً من الازدواجية الكاملة.
ذاكرة التخزين المؤقت: تضمين/نتائج الطلبات باهظة الثمن، مشاركة ذاكرة التخزين المؤقت لـ LLM.
تحسين الرموز: ضغط المطالب، جيل الاسترجاع المعزز (RAG)، الترتيب قبل الجيل.

11) متعدد المناطق، HA و DR

ركوب الأمواج النشط/النشط أقرب إلى المستخدم، التوجيه العالمي (يعتمد على زمن الكمون).
تكرار المقاييس والخصائص مع التحقق من السلامة ؛ تدفئة المخابئ أثناء الإصدارات.
خطة DR: فقدان AZ/المنطقة، والإخلاء إلى تجمع النسخ الاحتياطي، والتحكم في الاعتماد على الدليل المركزي.
أيام الفوضى: اختبارات عقدة وحدة معالجة الرسومات/نطاق الشبكة/فشل التخزين.

12) نماذج التكوين (مفاهيم)

تريتون - جزخ ديناميكي:

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe - كناري:

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM - الإطلاق (الأفكار):


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13) خصوصية LLM: RAG وحلقة البحث

الفهرسة: الطنين، التضمين، شحن ANN بواسطة «المستأجر/المحلي».
الترتيب: نموذج شريحة وحدة المعالجة المركزية/وحدة معالجة الرسومات خفيفة الوزن لتحسين الدقة.
مطالبات/سياقات مخبأ: التخلص، التقنين.
سياسات الاستشهاد/المسؤولية للمجالات الحساسة (CCP/rules).

14) قائمة التنفيذ المرجعية

1. التقاط SLOs (p95 زمن الوصول/الرموز المميزة/s، التوافر) وملامح التحميل.
2. تقسيم المجموعة إلى مجمعات (خدمة/تدريب/بحث وتطوير)، وإدخال الحصص/الأولويات.
3. تمكين RDMA/NCCL والجدولة المدركة طوبولوجيًا.
4. إنشاء مخازن: المقاييس، مجموعات البيانات، fichester (عبر الإنترنت/غير متصل بالإنترنت)، قواعد بيانات المتجهات.
5. حدد كومة التقديم (Triton/KServe/vLLM)، أضف الخزانة/مخبأ KV/التكميم.
6. قم بتشغيل سجل النماذج، CI/CD، نشر الكناري/الظل.
7. وضع قابلية الملاحظة: نظام + مقاييس الأعمال، الجودة، التتبع.
8. أدخل سياسات الأمن/PII والتراخيص والتدقيق.
9. تحسين TCO: محجوز + بقعة، مقياس تلقائي، ذاكرة تخزين مؤقت، PEFT بدلاً من الاستنساخ الكامل.
10. تحضير HA/DR والحصول على يوم لعبة.

15) أنتيباترن

«وحدة معالجة الرسومات كبيرة للجميع» بدون مجموعات وأولويات.
عدم وجود قطع ديناميكية ومخبأ KV لـ LLM → انفجار p99 والتكلفة.
التدريب والعمل في نفس المجموعة دون استباق → حوادث SLO.
القياس عن بُعد الصفري للنوعية/السلامة → التدهور الخفي والمخاطر.
مركزية متراصة بدون سجل phichester/نموذج لا → تكرارها.
تجاهل تراخيص المقياس/البيانات.

موجز

تشمل البنية التحتية الناجحة للذكاء الاصطناعي أحواض جدولة ذكية لوحدات معالجة الرسومات، وشبكة عالية وتخزين صحيح، وخدمة فعالة (الجزر، والتخزين المؤقت، والتكميم، والتجميع)، و MLOps الناضجة، و SLOs الصارمة. جنبًا إلى جنب مع الأمن/PII، و HA/DR متعدد المناطق و Finops المدروس، توفر المنصة p99 مستقرًا، ويتم التحكم في الدولار/الطلب والتنفيذ السريع للنماذج الجديدة - من مكافحة الاحتيال إلى التخصيص ومساعدي LLM.

البنية التحتية للذكاء الاصطناعي ومجمعات وحدة معالجة الرسومات

موجز موجز

الجداول

تقسيم وحدة معالجة الرسومات

التحسينات

نشر السياسات

موجز

اتصل بنا

اتصال سريع

سيتم تحديث الفيديو قريبًا

نحن مشغولون جدًا بالمشاريع في الوقت الحالي