البنية التحتية للذكاء الاصطناعي ومجمعات وحدة معالجة الرسومات
(القسم: التكنولوجيا والهياكل الأساسية)
موجز موجز
الإنتاج-الذكاء الاصطناعي ليس «نموذجًا واحدًا على خادم واحد»، ولكنه مجموعة من عقد وحدة معالجة الرسومات، ومجمعات مسرعات مشتركة، وخدمة موحدة، وبيانات/ميزة، وقابلية للمراقبة، وإدارة التكاليف. بالنسبة إلى iGaming، يعد هذا أمرًا بالغ الأهمية في الوقت الفعلي: مكافحة الاحتيال، والتخصيص، وروبوتات الدردشة، ومساعدي LLM، وتوصيات اللعبة/الأسهم. الطوب الأساسي: Kubernetes/Slurm للتخطيط، وعزل أعباء العمل، والشبكة عالية السرعة (100/200/400G مع RDMA)، والتخزين السريع، و MLOps الناضجة، و SLO «الخرسانة المسلحة».
1) الخريطة المعمارية
الطبقات:1. مجموعة الحوسبة: عقد وحدة معالجة الرسومات (فئات A/H، AMD/ROCm، Intel Gaudi، إلخ)، عقد وحدة المعالجة المركزية للمعالجة المسبقة/الميزة.
2. الشبكة: 100G + Ethernet/IB، RDMA (RoCEv2)، طوبولوجيات NCCL، QoS.
3. التخزين: كائن (مشترك S3)، موزع POSIX (Ceph/grid)، NVMe-scratch محلي.
4. البيانات/الميزات: fichester (عبر الإنترنت/غير متصل بالإنترنت)، قواعد بيانات المتجهات (ANN)، ذاكرة التخزين المؤقت (Redis)، قوائم الانتظار.
5. ML-platform: register of articles and modelines, pipelines (CI/CD), version control, features as code.
6. طبقة الخدمة: Triton/KServe/vLLM/text-generation-indference (TGI)، A/V/canary-provoy، autorize.
7. الحوكمة والأمن: PII, Secrets, Audit, Export Policies, Weight/Datacet Licenses.
الأحمال النموذجية:- التسجيل عبر الإنترنت (p95 ≤ 50-150 ms) - مكافحة الاحتيال، التوصيات، الترتيب.
- خدمة LLM (p95 ≤ 200-800 ms لرموز 128-512) - دردشة/وكلاء/مطالبات.
- تحليلات الدفعة/تدريب إضافي - نوافذ ليلية، مقاييس غير متصلة بالإنترنت.
- القتال/التكيف - بشكل دوري، مع أولوية أقل من الإنترنت.
2) مجمعات GPU والجدولة
نموذج البلياردو
مسبح التقديم: طلبات قصيرة، جزامات عالية، SLOs صارمة.
مجموعة التدريب/Finetuning: وظائف طويلة، تدريب موزع (DDP).
مجموعة «البحث والتطوير/التجارب»: الحصص/الحدود، الاستباق مسموح به.
وحدة المعالجة المركزية/وحدة المعالجة المركزية/مجمع المعالجة اللاحقة: التطبيع، الترميز، الترتيب في وحدة المعالجة المركزية.
الجداول
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (غالبًا لتدريب HPC) - يمكن خلطه مع K8s من خلال عمال منفصلين.
الحصة العادلة والحصص: حصص المساحة المخصصة لوحدة معالجة الرسومات ووحدة المعالجة المركزية والذاكرة ؛ ساعات عمل وحدة معالجة الرسومات «المصارف» ؛ حدود المساحة/المشروع.
تقسيم وحدة معالجة الرسومات
MIG (وحدة معالجة الرسومات متعددة الأمثلة): قطع المسرع إلى شرائح معزولة (لركوب الأمواج/الإيجارات المتعددة).
MPS: مشاركة SM للمهام الصغيرة (مراقبة التداخل).
NVLink/PCIe: ضع في اعتبارك جدولة Topology Aware.
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) أداء الشبكة والأداء المشترك بين المواقع
RDMA (RoCEv2) لـ NCCL allruges ؛ إعدادات ECN/PFC، عزل فئات المرور.
التوطين: التدريب داخل «مصنع» واحد (جراب/مضيف/بصريات)، التقديم - أقرب إلى المستخدم (الحافة/المنطقة).
Conster control: ملفات تعريف مضبوطة، إطارات جامبو، واجهات دبوس.
4) التخزين والبيانات
تخزين الوزن/القطع الأثرية: كائن (إصدار، ثبات).
مجموعات البيانات/الميزات: Lakehouse (Delta/Iceberg/Hudi) + fichester غير المتصل بالإنترنت ؛ fichestor (millisond SLAs).
قواعد بيانات ناقلات الأمراض (ANN): Faiss/ScaNN/المعجلات، أو محركات ناقلات البائعين ؛ ، HNSW/التلقيح الاصطناعي، تكرار.
ذاكرة التخزين المؤقت المحلية NVMe: تسخين المقاييس/التضمين لبداية باردة.
5) نماذج الخدمة
أطر العمل
Triton Infence Server (multimodel, multime-time, dynamic butching).
KServe (K8s-native, autoscalling HPA/KPA, canary).
vLLM/TGI للترميز LLM وفك التشفير عالي الأداء (انتباه استدعاء، تفريغ ذاكرة التخزين المؤقت KV).
وقت تشغيل ONNX/TensorRT-LLM - للتجميع والتسريع.
التحسينات
الكمية: INT8/FP8/INT4 (مئوية/معايرة، AWQ/GPTQ) - عبر الإنترنت بعناية، قياس الجودة.
تجميع الرسم البياني: TensorRT، TorchInductor/XLA، حبات مدمجة.
التزليق/التزليق بالميكروباتنج: ديناميكي وثابت ؛ для LLM - دفعة مستمرة.
مخبأ KV: المشاركة بين الطلبات، غير متصل بالإنترنت على وحدة المعالجة المركزية/NVMe مع سياقات طويلة.
فك تشفير المضاربة: مسودة النموذج + جهاز التحقق لتسريع الإنتاج الرمزي.
حدود الرمز/السياق، التوقف المبكر، كلمات التوقف، الميزانية الزمنية لكل طلب.
نشر السياسات
A/B، canary، shadow - مقارنة مقاييس زمن الوصول/الجودة/الأعمال.
الأزرق الأخضر - لا وقت توقف.
التراجع عن SLO/الأخطاء.
6) التدريب/القتال
DDP/FSDP/ZeRO: الذاكرة/التدرجات الموزعة، المحاسبة NVLink/topology.
نقاط التفتيش: تدريجي/كامل، التردد مقابل I/O.
الدقة المختلطة: bf16/fp16 + مقياس الخسارة ؛ استقرار الملف الشخصي.
Dataset Sharding: مكرر موحد، تكرار عبر العقد.
الأولويات: الوظائف القابلة للانقطاع (قابلة للإفراغ) لصالح ركوب الأمواج.
خطوط الأنابيب المستقلة: البيانات → تدرب → → تسجيل التقدم → في PROD وفقًا لمعايير البوابة.
7) MLOps والمنصة
سجل النماذج: النسخ والتوقيعات والتبعيات والتراخيص/الحق في استخدام الجداول.
نماذج CI/CD: اختبارات التوافق، تراجع الأداء، بوابات الجودة، الانتشار الآمن.
Fichestor: اتساق غير متصل/عبر الإنترنت (تكافؤ الميزات) و TTL و backfill.
Data/Model Lineage: trace from datest to report/experiment.
دليل المطالب/القوالب لـ LLM (إصدار).
8) إمكانية الرصد و SLO
المقاييس على الإنترنت:- Latency p50/p95/p99، الرموز/s، إشغال الدفعة، انتظار قائمة الانتظار، إشغال GPU-Util/SM، الذاكرة، الأخطاء.
- تفاصيل LLM: رموز I/O، متوسط طول الاستجابة، النسبة المئوية للفشل حسب الحدود، ضرب مخبأ KV.
- الجودة: اختبارات الانحدار التلقائي (غير متصلة بالإنترنت)، القياس عن بعد عبر الإنترنت (أعلام المحتوى، السمية، دقة الإصدار في عينات الذهب).
- Business SLO: تحويل التخصيص، دقة مكافحة الاحتيال، الاحتفاظ.
التنبيهات: نمو p99/قائمة الانتظار، انخفاض الرموز/s، تدهور ملء الدفعات، استنفاد VRAM/PCIe-distle، نمو فشل حد السعر.
9) الأمن والامتثال والخصوصية
PII/البيانات المالية: تقسيم الحسابات والبيانات حسب المنطقة، التشفير عند الراحة/أثناء العبور، الترميز.
الأسرار/المفاتيح: KMS/Secrets Manager ؛ باستثناء التخزين في الصور/الرموز.
سياسات المخرجات LLM: المرشحات الأمنية، الفريق الأحمر، تسجيل المطالب/الاستجابات (مع إخفاء الهوية).
التراخيص: الامتثال لتراخيص مجموعات البيانات/الأوزان ؛ «عدم إعادة التوزيع «/القيود التجارية.
عزل المستأجر: مساحة الاسم - RBAC، والشبكات، وشرائح MIG، والحدود والحصص.
10) التكلفة والفينوبس
تخطيط القدرات: ملفات تعريف التحميل (RPS، رمز/ثانية)، «ذيول» البطولات والحملات.
الاحتياطي/الموقع: مجمعات مختلطة (محجوزة + موضعية/قابلة للتفريغ) مع مهام إعادة التحديد ونقاط التفتيش.
المقياس الذاتي: HPA/KPA بواسطة RPS/عمق قائمة الانتظار/وحدة معالجة الرسومات util ؛ «بداية دافئة» مع موازين دافئة.
نموذج حديقة الحيوان: تقليل الخيارات ؛ استخدم التكيف (LoRA/PEFT) بدلاً من الازدواجية الكاملة.
ذاكرة التخزين المؤقت: تضمين/نتائج الطلبات باهظة الثمن، مشاركة ذاكرة التخزين المؤقت لـ LLM.
تحسين الرموز: ضغط المطالب، جيل الاسترجاع المعزز (RAG)، الترتيب قبل الجيل.
11) متعدد المناطق، HA و DR
ركوب الأمواج النشط/النشط أقرب إلى المستخدم، التوجيه العالمي (يعتمد على زمن الكمون).
تكرار المقاييس والخصائص مع التحقق من السلامة ؛ تدفئة المخابئ أثناء الإصدارات.
خطة DR: فقدان AZ/المنطقة، والإخلاء إلى تجمع النسخ الاحتياطي، والتحكم في الاعتماد على الدليل المركزي.
أيام الفوضى: اختبارات عقدة وحدة معالجة الرسومات/نطاق الشبكة/فشل التخزين.
12) نماذج التكوين (مفاهيم)
تريتون - جزخ ديناميكي:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - كناري:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - الإطلاق (الأفكار):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) خصوصية LLM: RAG وحلقة البحث
الفهرسة: الطنين، التضمين، شحن ANN بواسطة «المستأجر/المحلي».
الترتيب: نموذج شريحة وحدة المعالجة المركزية/وحدة معالجة الرسومات خفيفة الوزن لتحسين الدقة.
مطالبات/سياقات مخبأ: التخلص، التقنين.
سياسات الاستشهاد/المسؤولية للمجالات الحساسة (CCP/rules).
14) قائمة التنفيذ المرجعية
1. التقاط SLOs (p95 زمن الوصول/الرموز المميزة/s، التوافر) وملامح التحميل.
2. تقسيم المجموعة إلى مجمعات (خدمة/تدريب/بحث وتطوير)، وإدخال الحصص/الأولويات.
3. تمكين RDMA/NCCL والجدولة المدركة طوبولوجيًا.
4. إنشاء مخازن: المقاييس، مجموعات البيانات، fichester (عبر الإنترنت/غير متصل بالإنترنت)، قواعد بيانات المتجهات.
5. حدد كومة التقديم (Triton/KServe/vLLM)، أضف الخزانة/مخبأ KV/التكميم.
6. قم بتشغيل سجل النماذج، CI/CD، نشر الكناري/الظل.
7. وضع قابلية الملاحظة: نظام + مقاييس الأعمال، الجودة، التتبع.
8. أدخل سياسات الأمن/PII والتراخيص والتدقيق.
9. تحسين TCO: محجوز + بقعة، مقياس تلقائي، ذاكرة تخزين مؤقت، PEFT بدلاً من الاستنساخ الكامل.
10. تحضير HA/DR والحصول على يوم لعبة.
15) أنتيباترن
«وحدة معالجة الرسومات كبيرة للجميع» بدون مجموعات وأولويات.
عدم وجود قطع ديناميكية ومخبأ KV لـ LLM → انفجار p99 والتكلفة.
التدريب والعمل في نفس المجموعة دون استباق → حوادث SLO.
القياس عن بُعد الصفري للنوعية/السلامة → التدهور الخفي والمخاطر.
مركزية متراصة بدون سجل phichester/نموذج لا → تكرارها.
تجاهل تراخيص المقياس/البيانات.
موجز
تشمل البنية التحتية الناجحة للذكاء الاصطناعي أحواض جدولة ذكية لوحدات معالجة الرسومات، وشبكة عالية وتخزين صحيح، وخدمة فعالة (الجزر، والتخزين المؤقت، والتكميم، والتجميع)، و MLOps الناضجة، و SLOs الصارمة. جنبًا إلى جنب مع الأمن/PII، و HA/DR متعدد المناطق و Finops المدروس، توفر المنصة p99 مستقرًا، ويتم التحكم في الدولار/الطلب والتنفيذ السريع للنماذج الجديدة - من مكافحة الاحتيال إلى التخصيص ومساعدي LLM.