عملیات و → پیش بینی حادثه مدیریت

پیش بینی حوادث

1) چرا شما به آن نیاز دارید

حوادث به ندرت "از هیچ جا منفجر نمی شوند. "قبل از شکست، پلت فرم سیگنال می دهد: رشد شتاب از p99، فرسودگی آهسته از بودجه خطا، صف تاخیر، رشد retrays در یک پایین دست خاص، نزدیک شدن به سهمیه ارائه دهنده. پیش بینی حادثه سیستمیک، پاسخ از «آتش نشانی» به «مداخله زودهنگام»، کاهش MTTR، تغییر میزان شکست و تلفات درآمد را ترجمه می کند.

اهداف:

شناسایی الگوهای پیشرو و به طور خودکار اقدامات پیشگیرانه را آغاز کنید.
سهم P1/P2 را با تغییر به سمت چپ (میزان تشخیص قبل از حادثه) کاهش دهید.
پیش بینی ها را در فرایندهای انتشار، پیش بینی و پیش بینی ظرفیت ایجاد کنید.

2) شاخص های سرب

پلت فرم/مادون:

شتاب p95/p99 (گرادیان), «دم» تاخیر, افزایش در تنوع.
صف/جریان: رشد «تاخیر» و تاخیر مشتق مثبت ؛ HPA حداکثر
DB/cache: 'active _ conns/max _ conns', 'replication _ lag', 'evitions', drop 'cache _ hit'.
شبکه: mTLS/خطاهای دست دادن، رشد 5xx/timeout به سمت خارج.

وابستگی ها/ارائه دهندگان:

'outbound _ error _ rate '/' retry _ rate' به یک ارائه دهنده خاص، 'circuit _ open'، 'quota _ use> 0. 9`.
ارائه دهنده SLA: پنجره های برنامه ریزی شده، تخریب.

محصول/کسب و کار:

بار غیر طبیعی (مبارزات/مسابقات)، جهش RPS/TPS، مخلوط منطقه ای/کانال غیر معمول.
قطره تبدیل سپرده/نرخ با رشد P99 → حادثه شبه پروکسی.

لایه SLO:

Burn-rate error-budget> threshold (به عنوان مثال،> 4 × برای 10-15 دقیقه).
نقض مکرر جزئی SLO (میکرو تخریب) به عنوان نشانگر نزدیک شدن به شکست.

3) منابع داده و داده ها

تله متری آنلاین: Prometheus/OTel (معیارها، سیاههها، مسیرها).
حوادث حادثه: بلیط/وضعیت/postmortems (درست برای هدف).
تغییر طرح/حقایق: انتشار, phicheflags, مهاجرت, پنجره ارائه دهنده.
دایرکتوری ها: نقشه وابستگی، سهمیه ها، صاحبان.
DWH-snapshots: واحد برای آموزش/اعتبار سنجی (پنجره همزمان!).

الزامات کیفیت: ≥99٪ کامل، تراز ساعت/دقیقه TZ، تعاریف یکنواخت p95/p99.

4) رویکردهای پیش بینی

4. 1 غیر پارامتری/قوانین (شروع سریع)

هشدار آستانه برای نرخ تغییر: «deriv (p99)»، «z-score» برای پنجره های کوتاه.
شرایط کامپوزیت: 'lag↑ + HPA = حداکثر + circuit_open (به = «PSP-X»).
دروازه های SLO-burn: توقف آزاد/canary در burn-rate> X.

4. 2 تشخیص ناهنجاری

خطوط پایه فصلی (STL/ایده های پیامبر مانند)، میانه نورد + MAD.
چند متغیره: ناهنجاری مشترک 'p99 + سعی مجدد + open_circuit + سهمیه'.
تشخیص نقطه تغییر: CUSUM/BOCPD برای تغییر روند.

4. 3 مدل ML (تحت نظارت)

طبقه بندی «حادثه در T + K ؟» توسط پنجره ویژگی (به عنوان مثال، 10-30 دقیقه قبل).
ویژگی ها: آمار، مشتقات، باقی مانده های فصلی، ارائه دهندگان/مناطق یک داغ، پرچم های انتشار.
برچسب ها: «incident{severity∈[P1,P2]}» در فاصله [t, t + K].
توضیح پذیری: اهمیت SHAP/Permutation برای اعتماد و کارایی.

4. 4 SRE-اولین هیبرید

مدل → خطر به ثمر رساند (0-1) → سیاست عمل (phicheflags/feilover/پیش مقیاس)، با HITL برای انتقاد.

5) مهندسی ویژگی

پنجره های کشویی (1/5/15 دقیقه): میانگین، p95/p99، std، حداکثر، شیب.
شاخص های نسبی: 'p99/baseline _ 1d'، 'error _ rate _ delta'.
ویژگی های کوهورت: ارائه دهنده، منطقه، نوع بازی/بازی، کانال دستگاه.
ویژگی های «بار»: RPS، اندازه بار، تعداد WS باز شده.
سیستم: 'hpa _ desired/max'، 'db _ conn _ ratio'، 'redis _ evications> 0'.
پرچم رویداد: «انتشار در حال پیشرفت», «قناری 10%», «پنجره ارائه دهنده».

6) مکانیک پیش بینی و اقدامات

زنجیره تصمیم گیری:

1. ریسک امتیاز دهی هر N ثانیه توسط دامنه (پرداخت/شرط/بازی/KYC).

2. سیاست هشدار:

خطر ≥ 0 8 + سیگنال های تایید → صفحه مالک دامنه ؛
0. 6–0. 8 → هشدار + آماده سازی اقدامات.

3. حفاظت:

قبل از اسکن (HPA minReplicas↑)، فعال کردن انبارها، محدود کردن توابع سنگین ؛
سودهی به فراهمکنندۀ پشتیبان/مسیر
توقف/بازگشت قناری ؛
حد retray به پایین دست «باریک».

4. HITL: یک فرد اقدامات سطح «تغییر رفتار کسب و کار» را تایید می کند.

7) ادغام در فرآیندهای روزانه

نسخه ها: دروازه های پیش بینی شده در قناری ها (قبل/بعد از مقایسه و امتیاز دهی ریسک).
Feilover: آماده سازی خودکار/گرم کردن مسیر پشتیبان در معرض خطر ارائه دهنده.
ظرفیت: «ارتقاء اولیه» با سقوط سر و عقب در حال افزایش است.
هشدارها: خوراک جداگانه «قبل از حادثه» + حاشیه نویسی در داشبورد.

8) قابلیت مشاهده و داشبورد

بررسی ریسک: خطر توسط دامنه و ارائه دهنده، روند، سهم ویژگی.
سیگنال های سرب: harbingers بالا-N (شیب p99، تاخیر، شکن باز).
اقدامات و نتایج: چه روشن است، اثر بر p95/خطا، حوادث لغو شده است.
مدل سلامت: دقت/فراخوانی/تاخیر، رانش علائم، فرکانس اقدامات خودکار.

9) معیارهای کیفیت پیش بینی

یادآوری @ P1/P2 (حساسیت حادثه بحرانی).
دقت (کمتر «صفحات کاذب»).
زمان سرب (متوسط «چند دقیقه قبل از این واقعیت»).
نرخ پیروزی مداخله (نسبت مواردی که اقدام باعث کاهش خطر/هزینه می شود).
شاخص خستگی هشدار (هشدار/تغییر/فرد).
امتیاز رانش (آمار. تفاوت در توزیع ویژگی ها در مقابل دوره آموزش).

اهداف پیش فرض عبارتند از: یادآوری (P1) ≥ 0. 7، دقت ≥ 0. 6، زمان سرب متوسط ≥ 8-10 دقیقه.

10) مدیریت ریسک مدل (ML Ops/Governance)

داده ها/کد/نسخه مصنوع، تکرارپذیری.
Champion/Challenger: مدل جدید به صورت موازی، آفلاین/مقایسه آنلاین اجرا می شود.
رانش: PSI/KL-divergence، شمارش خودکار آستانه، هشدار «مدل قدیمی است».
توضیح پذیری: برای هر راه حل، اهمیت ویژگی ها و پیوند به داده ها را ذخیره کنید.
امنیت/اخلاق: دسترسی، پوشش PII، کنترل اقدامات خودکار توسط سیاستمداران.

11) قوانین و سیاست های نمونه

SLO رایت و قناری (مفهوم):


policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments

خطر کامپوزیت ارائه دهنده:


risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features

طوفان تاخیر در جریان:


if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) چک لیست پیاده سازی (30-60 روز)

کاتالوگ سیگنال ها و «حقایق» توسط حوادث (شدت، زمان بندی).
پایه و فصلی برای معیارهای کلیدی (قبل/بعد از انتشار).
قوانین سیگنال اولیه (p99، تاخیر، شیب نرخ سوختگی).
داشبورد ریسک/سیگنال سرب/اقدامات.
ادغام با phicheflags/canaries، قبل از مقیاس HPA.
خلبان طبقه بندی ML در همان دامنه (به عنوان مثال پرداخت ها)
سیاست های HITL و گزارش فعالیت خودکار.
معیارهای کیفیت و هشدار به مدل رانش/سلامت.

13) ضد الگوهای

«توپ کریستال»: یک مدل ML پیچیده بدون خطوط و قوانین ساده است.
بدون اقدام: ما «بد» را پیش بینی می کنیم، اما ما هیچ کاری را به طور خودکار انجام نمی دهیم.
نادیده گرفتن فصلی/تقویم رویدادها (مسابقات/مسابقات) → آلارم های دروغین.
مخلوط کردن مناطق زمانی → معیارهای نادرست/پنجره های حادثه.
عدم توضیح پذیری → عدم اعتماد، غیرفعال کردن پیش بینی کننده با دستورات.
یک آستانه جهانی واحد برای همه دامنه ها/مناطق → دقت کم.

14) ویژگی دامنه (iGaming)

پرداخت: ارائه دهندگان/سهمیه ها, رشد 'retry _ rate' و 'circuit _ open' → early fake.
شرط: تاخیر در به روز رسانی ضرایب, WS فن از رشد → حد پخش.
بازی ها/زنده: سنبله های اتصال، محدودیت های استودیو → تخریب UI/حافظه های پنهان.
KYC/AML: تاخیرهای webhook، صفهای تأیید → HITL و پردازش معوق.

15) نمونه هایی از معیارها و هشدارها (ایده ها)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) پیش بینی KPI برنامه

نرخ تشخیص قبل از حادثه.
میانگین زمان سرب قبل از حادثه.

کاهش P1/P2 QoQ

MTTR (انتظار می رود ↓ به دلیل زمینه اولیه).
میزان هشدار نادرست/خستگی هشدار (↓ پایدار).

اجتناب از هزینه

17) شروع سریع (دستور العمل)

1. فعال کردن قوانین گرادیان در p99/lag و سوزاندن SLO ؛

2. اضافه کردن شرایط کامپوزیت برای ارائه دهندگان ؛

3. پیش فرض را به phicheflags و پیش مقیاس پیوند دهید.

4. پیش بینی → عمل → گزارش اثر ؛

5. خلبان ML در یک دامنه ؛ مقیاس پس از دقت/فراخوان رشد می کند.

18) سوالات متداول

س: بدون ML از کجا شروع کنیم ؟

A: خطوط پایه فصلی + شیب + قوانین کامپوزیت. این باعث افزایش قابل توجهی در یادآوری بدون عوارض می شود.

موضوع: چگونه در افکار مثبت غرق نشویم ؟

پاسخ: سیگنال ها را ترکیب کنید، زمان هیسترزیس و تأیید را وارد کنید، آستانه های هر دامنه/منطقه را تنظیم کنید، خستگی دقیق و هشدار را ارزیابی کنید.

س: کدام اقدامات برای اولین بار به صورت خودکار انجام می شود ؟

A: امن و برگشت پذیر: پیش مقیاس، امکان ذخیره سازی/تخریب، توقف/بازگشت قناری، ارائه دهنده سوئیچینگ در سیگنال های تایید شده.

عملیات و → پیش بینی حادثه مدیریت

پیش بینی حوادث

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم