منابع محاسباتی مشترک
1) «منابع محاسباتی مشترک» چیست ؟
منابع محاسباتی مشترک (GPUs) یک منبع منطقی واحد از CPU/GPU/حافظه/دیسک/شبکه/DA (در دسترس بودن داده ها) ارائه شده به نقش های مختلف (توسعه دهندگان، اپراتورهای گره، ارائه دهندگان داده ها/محتوا، تحلیلگران، تیم های ML) از طریق رابط های استاندارد، سیاست ها و اقتصاد انگیزه. هدف افزایش بهره وری، کاهش هزینه ها و ارائه عملکرد قابل پیش بینی در سناریوهای چند اجاره ای و بین زنجیره ای است.
2) طبقه بندی منابع
محاسبات: CPU (هدف کلی)، GPU (آموزش/استنتاج)، NPU/TPU (شتاب دهنده ML).
حافظه و دیسک: RAM، NVMe محلی، ذخیره سازی شی/بلوک، حافظه های پنهان (Redis/KeyDB).
شبکه: پهنای باند، خروج/ورود، کلاس های QoS، کانال های خصوصی.
داده ها و DA: سهمیه برای انتشارات، تکرار، عکس های فوری و ذخیره سازی شواهد.
محدودیت های سرویس: تعداد غلاف/ظروف، فایل های باز، توصیف کننده ها، بخش میکرو GPU (MIG).
3) انواع حجم کار
تاخیر آنلاین/کم: API، matchmaking، مدارهای بازی/fintech، پیام های متقابل زنجیره ای.
جریان/زمان واقعی: پردازش رویداد، ضد تقلب، تله متری، تجزیه و تحلیل در زمان واقعی.
دسته ای: ETL/ELT، گزارش، محاسبات دوره ای، آماده سازی ویژگی های.
ML/AI: یادگیری (GPU فشرده)، استنتاج (تاخیر کم/تبدیل بالا).
ذخیره سازی و ذخیره سازی: OLTP/OLAP، دریاچه، CDN/لبه کش.
SLO ها، اولویت ها، انزوا و تعرفه ها برای هر کلاس تعیین می شود.
4) هماهنگی و برنامه ریزی
Sheduling توسط اولویت و کلاس QoS: EDF/LLF برای «مهلت»، صف اولویت، تضمین «حداقل».
درخواست منابع: «درخواست/محدودیت» برای CPU/حافظه، سهمیه GPU و سهام، استخر قابل پیش بینی/نقطه برای صرفه جویی.
ضد سر و صدا: cgroup/جبران «همسایه پر سر و صدا»، NUMA پینینگ، سیاست های شبکه.
توپولوژی و محل سکونت: داده ها و محاسبات هم محل، میل/ضد میل، لبه اتصال.
Autoscaling: افقی (HPA)، عمودی (VPA)، خوشه (CA)، خلبان اتوماتیک برای دسته های GPU/DA.
5) چند اجاره و انزوا
Уровни: namespace → project → org (بودجه/سهمیه/ACL).
جداسازی: ظروف، VM، sandboxes (gVisor/Firecracker)، شبکه (VPC/NetworkPolicy)، ذخیره سازی (سیاست های CSI).
سیاست های کاهش نویز: محدودیت های IOPS/خروج، برنامه ریزی عادلانه سهم، سطوح اختصاص یافته برای خدمات بحرانی.
بودجه خطا/منابع: بودجه خطا در هر مستاجر و بودجه منابع با تخریب خودکار.
6) QoS، اولویت بندی و SLO/SLA
کلاس QoS: Q4 (بحرانی pealtime)، Q3 (دستور داد)، Q2 (دقیقا یک بار موثر)، Q1 (حداقل یک بار)، Q0 (بهترین تلاش).
نمونه های SLO: API تاخیر p95 ≤ 200 ms (Q4)، صف انتظار GPU ≤ 2 دقیقه (Q3)، دسته به پنجره T ≤ 30 دقیقه (Q1).
قرارداد QoS → resursy: سهمیه تضمین شده و «جرثقیل توقف» اضطراری به هر کلاس اختصاص داده می شود.
7) اقتصاد و کسب درآمد (صدور صورت حساب/انگیزه)
واحدهای شارژ: vCPU-sec، GiB-hours RAM، GPU-minutes، GB-storage-month، GB-egress، DA-byte/publication.
برنامه های تعرفه: پرداخت به عنوان شما بروید، اشتراک با سهمیه و هزینه های بیش از حد، رزرو (متعهد)، نقطه/قابل پیش بینی با تخفیف.
RevShare برای ارائه دهندگان سخت افزار/مراکز داده: سهم گردش مالی، پاداش SLA/جریمه.
بازار قدرت: لیست گره/خوشه، رتبه بندی کیفیت، مزایده های حافظه GPU.
- U-token - پرداخت سهمیه/محدودیت، تخفیف.
- S-token - وعده برای گره ها/استخر های SLA (کاهش برای خرابی/نقض).
- R-token - شهرت ارائه دهنده/مستاجر (قیمت/اولویت اصلاح کننده).
- قراردادهای RNFT - قراردادهای فردی «resurs↔obyazatelstvo» (محدودیت ها، قیمت، مدت، KPI، خروجی).
8) قراردادهای هسته و خدمات
رجیستری منابع: انواع منابع، کلاس های ماشین/GPU، مناطق قابل دسترسی/edge-POP.
مدیر سهمیه: سهمیه/محدودیت در هر مستاجر/پروژه، خروج از بودجه/IOPS/DA.
زمانبندی/قرار دادن: غلاف/شغل/استخر، اولویت ها، محل، ضد سر و صدا.
صورتحساب و اندازه گیری: متر واحد، تعرفه، هزینه های بیش از حد، هشدار بودجه.
روتر پاداش: توزیع پرداخت به ارائه دهندگان، مجازات برای معافیت SLA.
دروازه انطباق: مناطق، اطلاعات شخصی/اطلاعات شخصی، محدودیت های سن/CCM، گزارش های صادرات.
مرکز قابل مشاهده: معیارها/مسیرها/سیاهههای مربوط، DLQ برای کار، تکرار.
9) ایمنی و انطباق
احراز هویت/مجوز: mTLS/OIDC، ABAC/RBAC، «حداقل امتیازات».
تقسیم بندی شبکه: VPC، لینک خصوصی، سرویس با سیاست های ترافیک.
داده ها: رمزگذاری در حالت استراحت/در حال حمل و نقل، چرخش کلید، داده های پنهان/ساختگی برای آزمایش.
جداسازی GPU/CPU: غیرفعال کردن دسترسی مستقیم، کنترل DMA/IOMMU، حفاظت از کانال جانبی.
انطباق: ورود به سیستم حسابرسی، محلی سازی منطقه ای داده ها، سیاست های حفظ/حذف، شکاف ZK برای ممیزی بدون افشای.
10) قابلیت مشاهده و مدیریت عملکرد
معیارها: uCPU٪، GPU-util، RAM/Cache hit، دیسک IOPS/توان، شبکه p95 RTT/خروج، صف GPU/Batch-lag.
داشبورد SLO/SLA: «سلامت» توسط کلاس های QoS و مستاجران، بودجه خطا.
پروفایل: عکس های فوری فلامگراف، تجزیه و تحلیل مسیر داغ، توصیه اندازه خودکار.
هشدارها: بیش از حد تاخیر، بیش از حد صف های GPU، انفجار خروج، پرچم های «همسایه پر سر و صدا».
11) ضد تقلب و سوء استفاده
Sybil/bot load: S-plans، R-reputation، امضاهای رفتاری.
خروج از سوء استفاده/اسکن شبکه: محدودیت نرخ/IDS، بخش های قرنطینه.
تخفیف نقطه Pharming: سیاستمداران ضد arb، خنک کننده، محدودیت در «پریدن» بین استخر.
ارائه دهندگان نادرست: کنترل مشخصات اعلام شده، نمونه های مصنوعی، برش و «لیست سیاه» RNFT.
12) سناریوهای بین زنجیره ای (چند زنجیره ای/لبه)
انتقال حقوق دسترسی: حقوق و سهمیه های RNFT از طریق پیام های فوری منتقل می شود، شهرت (R) در حوزه اعتماد باقی می ماند.
سهمیه DA و نشریات: شارژ در هر بایت/فرکانس، نهایی/قفل موقت.
محاسبات لبه: گره های POP با بافر محلی، «هل دادن» استنتاج نزدیک به کاربر.
X-domain dedup and idempotency: global 'x _ job _ id', جداول دیده شده در انتهای, دوره های چالش.
13) برنامه ریزی ظرفیت و پایداری
برنامه ریزی ظرفیت: روند مصرف، فصلی، سهام N هفته، «خطوط قرمز» p95.
روزهای بازی و تست استرس: GPU/خروج/DA بیش از حد، خاموش شدن AZ/POP، سناریوهای تخریب.
تخریب توسط طراحی: عقب نشینی برازنده (مدل های کمتر دقیق/کش)، اولویت های Q4/Q3.
بهره وری سبز: بازیافت، ریختن کربن، هزینه خنک کننده/انرژی، انتقال دسته ای به پنجره های سبز.
14) معیارها و KPI های اکوسیستم OVR
دفع: CPU/GPU مشغول٪، RAM/Cache ضربه، استفاده از ذخیره سازی IOPS/GB.
کارایی: هزینه برای خدمت/درخواست، دفع نقطه، GPU حاشیه/دقیقه.
کیفیت: p50/p95 تاخیر توسط کلاس، SLA معافیت/1000 درخواست، صف/شروع کار زمان.
عدالت: «همسایه پر سر و صدا» شاخص، سهم از حوادث توسط مستاجر، تخصیص سهمیه.
اقتصاد: درآمد/منابع واحد، NRR/GRR با توجه به برنامه ها، سهم درآمد مکرر.
ایمنی: فرکانس انزوا، ناهنجاری های خروج، حوادث ناگهانی اعتبار.
15) 治理 (مدیریت) منابع
پارامتر پیشنهاد: تغییر در تعرفه/سهمیه/راهرو از طریق رای گیری.
R-modifier: شهرت تأثیر «سرمایه خام» را در تغییرات حساس محدود می کند.
بند غروب آفتاب: تبلیغات موقت/تخفیف با بازگشت خودکار.
گزارش عمومی: گزارش های سه ماهه خزانه داری OVR، حسابرسی SLA.
16) کتابچه راهنمای راه اندازی
1. نیازهای نقشه برداری کلاس های وظیفه، SLO، محل داده.
2. طراحی استخر کلاس های ماشین، سطوح GPU، سطوح ذخیره سازی/شبکه، edge-POP.
3. سیاست ها و سهمیه ها کلاسهای QoS، بودجهها، محدودیتهای خروج/IOPS/DA.
4. اقتصاد. تعرفه ها، نقطه/ذخایر، انگیزه برای ارائه دهندگان، قراردادهای RNFT.
5. ایمنی و انطباق mTLS/OIDC، رمزگذاری، سیاهههای مربوط به ممیزی، سیاست های جغرافیایی.
6. قابل مشاهده بودن داشبورد KPI/SLO، هشدار، پروفایل.
7. خلبان و مقیاسپذیری یک کلاس از وظایف (به عنوان مثال، استنتاج) → یک پسوند به دسته/جریان.
8. حوادث و پس از مرگ روزهای بازی، تکرار، تنظیمات سیاست/تعرفه.
17) چک لیست تحویل
- QoS/SLO ها برای تمام انواع کار تعریف شده است
- سهمیه/محدودیت ها و برنامه ریزی سهم عادلانه شامل
- پیکربندی نقطه/استخر قابل پیش بینی و سیاست های ضد arb
- پیاده سازی قراردادهای RNFT, صدور صورت حساب و پاداش روتر
- جداسازی, رمزگذاری و انطباق گزارش ارائه
- داشبورد بازیافت/کیفیت/اقتصاد در دسترس است
- حوادث کار می کرد: توقف جرثقیل، تخریب، پس از مرگ
- انتقال چند زنجیره ای حقوق، سهمیه DA، توزیع لبه پیکربندی شده است
18) واژه نامه
OVR (shared computing resources): مجموعه ای از ظرفیت برای یک اکوسیستم.
RNFT: قرارداد - «رابطه» برای حقوق به منابع/محدودیت/مهلت.
S-token: وثیقه در برابر مسئولیت SLA/ارائه دهنده/گره.
R-token: شهرت غیر قابل انتقال برای کیفیت/قابلیت اطمینان.
DA: لایه دسترسی به داده ها (انتشار/ذخیره سازی شواهد).
نقطه/قابل پیشگیری: منابع ارزان اما قابل وقفه با سیاست های تجدید.
خط پایین: منابع محاسباتی مشترک، اکوسیستم را به یک کارخانه محاسبات متعادل تبدیل می کنند، جایی که بازیافت بالا است، کیفیت قابل پیش بینی است، انگیزه ها هماهنگ شده اند، و امنیت و انطباق در پروتکل ساخته شده است. ارکستراسیون مناسب، اقتصاد i治理 به شما این امکان را می دهد که بارهای چند اجاره ای را بدون از دست دادن بهره وری و اعتماد به دست آورید.