پیش بینی بار و ریسک
1) چرا شما به آن نیاز دارید
پیش بینی بار و ریسک توانایی آماده سازی زیرساخت ها و فرایندها را برای پیشبرد رویدادهای پیک (انتشار، مسابقات، کمپین های تبلیغاتی، مسابقات، تعطیلات)، به حداقل رساندن خرابی و افزایش بودجه فراهم می کند. نتایج استفاده می شود برای:- برنامه ریزی و بودجه بندی ظرفیت
- تنظیمات SLO/SLI، بودجه خطا و سیاست های هشدار
- انتخاب یک استراتژی انتشار (قناری، آبی سبز، راه اندازی تاریک) ؛
- مدیریت ریسک: جلوگیری از تخریب، صف، معاملات قطره، جریمه SLA.
2) مفاهیم اساسی
میزان وقایع/عملیات ورودی (RPS، TPS، رویدادها/ثانیه) و همچنین مصرف CPU/RAM/IO/NET.
ظرفیت-به طور مداوم عملکرد قابل دستیابی در SLO داده شده و هزینه.
ریسک: احتمال × تاثیر یک رویداد ناخواسته (شکست SLA، حادثه، هزینه بیش از حد).
شاخص های اولیه: معیارهای در حال رشد قبل از حادثه (تاخیر p95/p99، عمق صف، مکث GC، نرخ خطا، اشباع).
Headroom - نسبت ظرفیت موجود به بار فعلی.
3) منابع داده و معیارها
منابع: سیاهههای مربوط و معیارهای (Prometheus/OTel)، ردیابی، رویدادهای تجاری (Kafka)، سیاهههای مربوط به CDN/WAF/ALB، داده های marktech (کمپین ها)، تقویم رویداد، صورتحساب/استخوان (FinOps)، phicheflags/انتشار، صف (Kafka/Rabbit)، DB/caches.
معیارهای کلیدی:- ترافیک: RPS/TPS، کاربران فعال (DAU/MAU)، جلسات، تبدیل مرحله.
- عملکرد: تاخیر p50/p95/p99، توان عملیاتی، خطاها (4xx/5xx)، وقفه ها، تلاش های مجدد.
- Ресурсы: CPU/LoadAvg، RAM/GC، دیسک IOps/lat، bw شبکه، استفاده از استخر اتصال.
- صف ها: عقب ماندگی، تاخیر، تاخیر مصرف کننده، زمان در صف.
- БД: QPS، انتظار قفل، پرس و جو آهسته، تاخیر تکرار.
- Кэши: نسبت ضربه، میزان اخراج، کلید های داغ.
- سطح کسب و کار: سپرده/نرخ در دقیقه، امتناع از پرداخت، صف KYC/AML.
- قابلیت اطمینان: SLI/SLO، میزان سوزاندن بودجه خطا (1h/6h/24h).
4) مدل های پیش بینی پایه
1. جبرگرایی و تقویم: رگرسیون در رانندگان شناخته شده (تاریخ/زمان، مسابقات، مسابقات، استخرهای بازار، جغرافیایی، سهام سهام).
2. آماری: فصلی/روند (ARIMA/ETS)، رگرسیون با تعطیلات، روش پیامبر مانند.
3. ML/گروه: افزایش شیب/جنگل تصادفی/XGBoost/LightGBM ؛ اضافه کردن ویژگی های: آب و هوا، نرخ ارز، اخبار ورزشی، رویدادهای رقابتی.
4. مخلوط: آمار فصلی پایه + ML برای عوامل خارجی (کمپین ها، نسخه ها).
5. سهمیه/چندک: پیش بینی نه تنها به طور متوسط، بلکه p90/p95 برای برنامه ریزی headroom.
خروجی مدل: پیش بینی RPS/TPS و توزیع تاخیر/خطا در T + 1h/T + 24h/T + 7d/T + 30d افق با فواصل اطمینان.
5) صف و محدودیت: نظریه کوتاه
قانون کوچک: L = λ × W (میانگین تعداد در سیستم = شدت × میانگین زمان).
تنگناها: محدودیت های ارائه دهنده DB/cache/bus/connection pool/API.
اشباع: در بار> 70-80٪ تاخیر غیر خطی را افزایش می دهد.
فشار پشتی: حفاظت از مصرف کننده در برابر اضافه بار (محدودیت ها، صف ها، سیاست های ریختن، تخریب ویژگی ها).
6) برنامه ریزی ظرفیت
روش SLO: تاخیر مورد نیاز p99 و نرخ خطای قابل قبول → که توان در اتاق سر N٪ نگهداری می شود.
روش «از سناریوها»: «مسابقه لیگ قهرمانان»، «جمعه سیاه»، «مسابقات در مقیاس بزرگ» → چندک های بالای ترافیک + شکست یک AZ/گره.
روش «هزینه آگاه»: تنظیمات توسط $/RPS را انتخاب کنید، با در نظر گرفتن تخفیف، رزرو، نقطه/اشتراک، autoscaling.
مصنوعات: مدل ظرفیت در هر سرویس، محدودیت ها و سهمیه ها (API، DB، صف)، تنگنا → جدول عمل (sharding، caching، replica، CQRS، async).
7) مدیریت ریسک
ثبت ریسک: شناسایی، توصیف، احتمال، تاثیر (مالی/SLA/نظارتی)، صاحبان، برنامه های پیشگیری/پاسخ.
دسته بندی ها: بار (اضافه بار)، زیرساخت (AZ/منطقه شکست)، وابستگی (ارائه دهندگان پرداخت)، انتشار (رگرسیون)، محصول (کمپین قوی تر از انتظارات افزایش یافت)، انطباق (محدودیت/تنظیم کننده).
ماتریس: نقشه حرارتی (ضربه کم/متوسط/زیاد ×).
KRI (شاخص های کلیدی ریسک): عمق صف، رشد p99، افت نسبت ضربه، میزان سوختگی> 2 ×، خطاهای ارائه دهنده.
8) هشدار و هشدار زودهنگام
SLI های هشدار دهنده: رشد p95، کاهش بازدید حافظه پنهان، رشد تاخیر دم، رشد مجدد/وقفه، افزایش تاخیر مصرف کننده.
هشدار سوختگی نرخ در خطاهای بودجه: سریع (1h) و آهسته (6-24h) پنجره.
هشدار آستانه و مبتنی بر آنومالی: آستانه های پایه + مدل های آنومالی (IQR، STL، آشکارسازهای جریان).
تجمیع سیگنال: ارتباط رویدادهای release/phicheflag/campaign با تخریب.
9) تجزیه و تحلیل سناریو و «چه اگر»
اگر رشد ترافیک + 60٪ در 10 دقیقه ؟
«اگر CDN/WAF 5٪ از ترافیک قانونی را کاهش دهد ؟»
«اگر ارائه دهنده پرداخت 30٪ از مجوزها را از دست بدهد ؟»
برای هر سناریو: معیارهای مورد انتظار، تنگناها، مراحل تخریب (تغییر ویژگی های غیر مهم)، مقیاس دستی/خودکار، ارائه دهندگان سوئیچینگ.
10) تست و تایید پیش بینی
تست بار: ترافیک مصنوعی (k6/JMeter/Locust)، پروفایل های مخلوط واقعی.
بازی روز/هرج و مرج: غیر فعال کردن AZ، تنزل پایگاه داده، اگزوز استخر.
سایه/تاریکی: ترافیک «به سایه» از مسیر جدید بدون تاثیر بر تولید.
دقت گذشته نگر: MAPE/SMAPE/RMSE + پس از مرگ "کجا اشتباه کردید ؟ ”.
11) فرآیندها و نقش ها
شرکت راسی:- مسئول: تحلیلگران SRE/Platform/DS.
- مسئول: رئیس عملیات/SRE.
- مشاوره: توسعه دهندگان فرصت، بازاریابی، امور مالی (FinOps).
- مطلع: پشتیبانی/انطباق/کسب و کار.
- کادنس: به روز رسانی پیش بینی هفتگی، بازنگری ماهانه SLO/Capacity، اتاق های پیش از رویداد var.
12) ابزار و پشته
داده ها: کافکا، ClickHouse/BigQuery، دریاچه/DWH، DBT.
نظارت: Prometheus، Grafana، Tempo/Jaeger، Loki/ELK، OTel.
ML/پیش بینی: جریان هوا/آرگو، فروشگاه ویژگی، مدل ARIMA/ETS/GBM، خدمات پیش بینی (gRPC/REST).
Тесты: k6/JMeter/Locust، تزریق خطا/هرج و مرج مش.
مدیریت: ویژگی های پرچم، Autoscaling (HPA/KEDA)، سیاست به عنوان کد.
FinOps: هزینه اکسپلورر، showback/chargeback، داشبورد $/RPS.
13) تمرین پیاده سازی (نقشه راه)
1. فهرست معیارها و وابستگیها → نقشه مسیر بحرانی (سپرده، نرخ، خروجی).
2. SLO/SLI و بودجه خطا → هدف p95/p99، نرخ خطا، هشدار سوختگی.
3. جمع آوری داده ها و تمیز کردن → تک لایه رویداد/متریک، deduplication، تاخیر.
4. پیش بینی فصلی پایه → الگوهای روز/هفته، تعطیلات/مسابقات.
5. گسترش توسط رانندگان → کمپین های بازار، انتشار، جغرافیایی، پنجره های پرداخت.
6. مدل های ظرفیت توسط خدمات → headroom، محدودیت ها، تنگناها، طرح بهینه سازی.
7. سناریو «چه اگر» و جدول تخریب (کشتن سوئیچ، فقط خواندنی، فضل).
8. تأیید از طریق آزمایش/سایه → تنظیم مدل ها و آستانه ها.
9. روال عملیاتی → پیش بینی هفتگی، بررسی قبل از رویداد، یکپارچهسازی با سیستمعامل پس از رویداد.
10. اتوماسیون → autoscale با توجه به پیش بینی، خودکار سوئیچینگ از ارائه دهندگان، خودکار phicheflags.
14) ضد گلوله
«فقط متوسط» پیش بینی بدون دم p95/p99.
نادیده گرفتن صف ها و استخرها - مشکلات در اوج ظاهر می شوند.
دستی توسط چشم بدون معیارهای اعتبار و دقت.
هیچ ارتباطی بین هزینه های بیش از حد وجود ندارد.
فقدان برنامه تخریب و phicheflags.
15) داشبورد و گزارش
Exec-dashboard: پیش بینی RPS/TPS (p50/p90/p95)، سر و صدا، کارت ریسک، نرخ سوختگی.
Tech-dashboard: تاخیر p95/p99 توسط خدمات، صف/تاخیر، نسبت ضربه، استخر اتصال، پایگاه داده/کش، محدودیت های API خارجی.
مالی: $/RPS، پیش بینی هزینه، اثر بهینه سازی.
دقت پیش بینی: خطای واقعی در مقابل پیش بینی، دوره/جغرافیایی/کانال.
16) الگوهای مصنوعی
ثبت ریسک: شناسه، خطر، احتمال/تاثیر، مالک، KRI، طرح پیشگیری، طرح واکنش.
ورق ظرفیت: خدمات، توان فعلی، محدودیت، تنگنا، سر و صدا، گسترش مورد نیاز، ETA/هزینه.
چه-اگر کارت: سناریو, عوامل ورودی, معیارهای مورد انتظار, اقدامات, معیارهای تکمیل.
Playbook Degrade: لیستی از ویژگی های غیر فعال کردن، سطوح QoS، مسیرهای کش/استاتیک، محدودیت های مجدد/محدودیت زمان.
17) توابع کلیدی KPI
اجرای SLO (٪ دوره های هدف)، زمان پاسخ به شاخص های اولیه، دقت پیش بینی (MAPE/SMAPE)، تعداد حوادث ناشی از اضافه بار، سهم مقیاس بندی خودکار، صرفه جویی در $/RPS بدون تخریب SLO.
مجموع
پیش بینی سیستم بار و خطرات یک بسته نرم افزاری است: داده های با کیفیت → معیارهای معنی دار → مدل های قابل آزمایش → سناریوها و کتاب های بازی → اتوماسیون مقیاس بندی و تخریب. این کانتور ثبات، پیش بینی هزینه ها و تجربه کاربر پایدار را حتی در قله های شدید فراهم می کند.