تخصیص منابع
1) وظایف و اصول
تخصیص منابع یک روش سیستماتیک برای مطابقت با تقاضا (بار، پروژه ها، حوادث) با عرضه (CPU/RAM/IO/شبکه، مجوزها، افراد، بودجه) برای SLO های هدف و محدودیت های FinOps است.
اصول اساسی:- SLO-first: منبع یک هدف با کیفیت دارد. انتخاب یک ابزار برای مقاومت در برابر آن است.
- عدالت + اولویت: سهم عادلانه برای همه، اما تضمین یک اولویت است.
- جداسازی: محدود کردن بارهای «انفجاری» شعاع انفجار.
- کشش: گسترش خودکار/انقباض برای تقاضای واقعی.
- آگاهی از هزینه: هر منبع اضافی باید تأثیر قابل درکی بر SLO/درآمد داشته باشد.
- مبتنی بر شواهد: راه حل های تایید شده توسط تله متری و آزمایش.
2) طبقه بندی منابع
محاسبات: CPU/حافظه/GPU، استخرهای کانتینر، سهمیه های بدون سرور.
ذخیره سازی: IOPS/توان، لایه های گرم/گرم/سرد، حافظه پنهان.
شبکه: خروج/ورود، CDN، کانال های خصوصی، استخر های IP.
داده ها: اسلات/منابع پنجره در DWH/جریان, پنجره backfill.
مردم: اسلات در تماس، IC/انتشار، SRE/زمان توسعه (ساعت/با حداکثر سرعت دویدن).
فروشندگان: محدودیت ارائه دهنده (PSP/KYC/CDN)، محدودیت نرخ و اتصالات.
3) مدل اولویت بندی (نمونه کارها)
Tier-0: جریان حیاتی (ورود، پرداخت). منابع تضمين شده، استخرهای شخصی.
ردیف 1: بحرانی کسب و کار (محصول اصلی، گزارش D-1). سهمیه های ترجیح داده شده
Tier-2/3: کمکی/تحقیق. قابل انفجار، محدودیت بودجه.
پروژه ها: تأثیر × فوریت × اعتماد به نفس × رتبه بندی هزینه تطبیق در SAV/نمونه کارها.
4) سیاست های تخصیص (تضمین ها، سهمیه ها، محدودیت ها)
تضمین شده (اختصاصی): سهم ثابت/رزرو ؛ برای Tier-0/1
Burstable: سهمیه پایه + حق قرض گرفتن تا حد مجاز.
بهترین تلاش: هیچ تضمینی وجود ندارد، می تواند جایگزین شود.
Quota/Limit-as-Code: تمام سهمیه ها و محدودیت ها به صورت اعلام شده (مخزن سیاست) توصیف می شوند.
بودجه پیشگیری/اختلال غلاف: چه کسی می تواند برکنار شود و با چه سرعتی.
سهمیه شبکه: خروج/مستاجر، محدودیت در اتصالات به ارائه دهندگان.
5) چند اجاره و انزوا
فضای نام/حساب برای هر مستاجر: محدودیت های فردی، بودجه، حسابرسی.
همسایگان پر سر و صدا: cgroups/requests/limits/IO-throttling ؛ گره های جداگانه برای وظایف «سنگین».
P95-isolation: SLO با درصد محاسبه می شود، نه میانگین ؛ انفجار نباید همسایگان p95 را شکست دهد.
اجاره داده: لایه های ذخیره سازی جداگانه و انبارها برای VIP/مناطق.
6) مقیاس خودکار و کشش
HPA/VPA/Cluster-autoscaler: مقیاس توسط پروکسی SLI/SLI (تاخیر p95، عمق صف)، نه فقط CPU.
پوسته پوسته شدن برنامه ریزی شده: در پیش برای پنجره اوج/حوادث.
استخر گرم: گرم کردن گره/اتصالات برای scalapes سریع.
شبکه/CDN: تعادل خودکار توسط بار RUM/Anycast/POP.
7) صف ها، کلاس های خدمات و SLA ها
کلاس ها: «طلا/نقره/برنز» با زمان انتظار هدف و بودجه خطا.
صف/اتوبوس: اولویت بندی، دسته های فردی برای Tier-0، DLQ.
فشار پشتی: رشته های قطره/شکل/آهسته برای محافظت از هسته.
Timeouts/Retrays Adaptive: برای کلاس سرویس و وضعیت فعلی.
8) منابع انسانی
شیفت و پوشش: مسابقه ترافیک (دنبال خورشید)، P1 + P2 دو برابر در اوج.
تمرکز SRE/Dev: درصد زمان در هر معرف/فعال (به عنوان مثال 50/50 با KPI
درخواست منابع: قالب RFC برای ساعت/با حداکثر سرعت دویدن، صف اولویت شفاف.
9) مدل مالی (FinOps)
اقتصاد واحد: $/1k درخواست، $/پرداخت موفق، $/GiB سیاهههای مربوط.
بودجه ها و هشدارها: سهمیه برای حساب ها/مستاجران، هشدارها در مورد هزینه های بیش از حد.
بهینه سازی: ذخیره سازی گرم/گرم/سرد، نمونه برداری ورود به سیستم، استخرهای نقطه ای برای غیر بحرانی.
Showback/Chargeback: گزارش هزینه توسط تیم/مستاجر انگیزه عملکرد.
10) مدیریت ارائه دهنده
محدودیت ها و پنجره ها: TPS قرارداد و صف در PSP/KYC/CDN ؛ پنجره های برنامه ریزی شده در تقویم.
پروفایل های شکست خورده: وزن و مسیریابی بین ارائه دهندگان متعدد.
معیارهای پالس: زمان پاسخ، انعطاف پذیری، هزینه/عملیات موفق.
11) معیارهای بلوغ توزیع
SLO پایبندی به درجه:٪ انطباق در طلا/نقره/برنز.
بهره وری منابع: استفاده از CPU/RAM/IO (متوسط/p95)، سهم بیکار.
هزینه هر نقطه SLO: تغییر در هزینه نگهداری هدف SLO.
میزان پیشگیری/پیشگیری: چند بار و چه کسی ما را جایگزین می کنیم.
MTTA کانون: استخر/مستاجر بیش از حد گرم زمان پاسخ.
شاخص عدالت: گسترش تاخیر/سهمیه بین مستاجران (جینی/تنوع).
12) چک لیست
قبل از تغییر توزیع
- اهداف SLO و کلاس خدمات تعریف شده است.
- تله متری توسط بار (p95/p99، رشد، فصلی) وجود دارد.
- سهمیه ها/محدودیت ها در Git شرح داده شده و مورد بررسی قرار گرفته است.
- اثرات بر همسایگان (آزمون انزوا) تست شده است.
- طرح عقب و گارد محافظ آماده است.
اتاق عمل هفتگی
- نقشه حرارتی دفع استخر و گزارش کانون.
- گزارش FinOps: $/واحد، overruns، ناهنجاری ها.
- محدودیت های ارائه دهنده و SLA ها ملاقات کرد.
- صف: تاخیر در کلاس، بدون روزه.
- CAPA با شناسایی تنگناها در کار.
13) قالب (ایده ها)
13. 1 سیاست سهمیه (YAML)
yaml tenant: vip-eu class: gold compute:
cpu:
request: "8000m"
limit: "12000m"
memory:
request: "16Gi"
limit: "24Gi"
storage:
tier: hot iops_min: 8000 network:
egress_mbps_cap: 500 slo:
latency_p95_ms: 250 preemption:
protected: true burst:
allowed: true max_factor: 1.5
13. 2 مشخصات خودکار زوم (قطعه)
yaml autoscaling:
metric: "queue_depth" # или biz_sli.payment_latency_p95 target: 200 min_replicas: 6 max_replicas: 60 warm_pool: 4 cooldown_sec: 120
13. 3 کلاس خدمات و صف
yaml class: gold sla:
wait_p95_ms: 150 queue:
partition: "gold-eu"
retry_policy:
attempts: 2 backoff_ms: 200 backpressure: "shape" # иначе drop/slow
13. 4 ادعای منابع (مردم)
RFC: RES-OPS-2025-11
Цель: усилить on-call P2 на пике ноябрьских промо (EU)
Период: 2025-11-25..2025-12-05
Обоснование: прогноз трафика +30%, прошлогодний p95 MTTA ↑
Запрос: +1 P2 слот/сутки, +IC в prime-time
14) روش ها و اتوماسیون
ربات برنامه ریز: محاسبه سهمیه از تاریخ ترافیک و اهداف SLO، PR به مخزن سیاست.
Guardrails-bot: توقف سیگنال به تخلیه زمانی که سهمیه/oversubscription کافی نیست.
Comms bot: اعلان های تیم ها در مورد هزینه های بیش از حد/پیش فرض/تغییر کلاس.
حاشیه نویسی: انتشار تعمیر و نگهداری/پنجره تغییر وزن/سهمیه برای مدت زمان کار (حذف سرکوب پس از).
15) ضد الگوهای
برجسته «توسط احساس»، بدون SLO و تله متری.
یک استخر بزرگ برای همه بدون انزوا «همسایگان پر سر و صدا».
انفجار کنترل نشده بدون حد بالایی → «خفه کردن» همسایگان.
کمبود فشار پشتی/صف → گلوله برفی از زمان.
نادیده گرفتن هزینه سیاهههای مربوط/خروج - «آرام» نشت بودجه.
سهمیه های ثابت بدون فصلی/قله → عدم دسترسی و یا هزینه های بیش از حد.
16) نقشه راه پیاده سازی (4-8 هفته)
1. «ند». 1-2: فهرست منابع و خدمات تخصیص کلاس (طلا/نقره/برنز) سهمیه اولیه ؛ SLO های اساسی
2. «ند». 3-4: مقیاس بندی خودکار توسط پروکسی SLI را فعال کنید. پیکربندی صف و فشار پشتی ایزوله کردن استخرهای Tier-0.
3. «ند». 5-6: گزارش FinOps ($/واحد، سهمیه، هشدار بودجه) ؛ استخرهای گرم و اسکیت های رنگی برای روزهای اوج.
4. «ند». 7-8: اتوماسیون برنامه ریز/گاردریل، کابینت مستاجر (دید سهمیه/ارزش)، انصاف بررسی سه ماهه و نقاط مهم.
17) خط پایین
تخصیص منابع یک بار نیست، بلکه یک فرآیند زنده است که در SLO، تله متری و FinOps ساخته شده است. هنگامی که اولویت ها رسمی می شوند، سهمیه ها و محدودیت ها - مانند کد، انزوا و انعطاف پذیری - به طور پیش فرض، و تصمیم گیری ها توسط معیارها و هزینه ها تایید می شود، سیستم به طور پیوسته قله ها را حفظ می کند، از جریان بحرانی محافظت می کند و از طریق بودجه نمی سوزد.