سیستم اطلاع رسانی و هشدار
(بخش: عملیات و مدیریت)
1) اهداف و اصول
هدف این است که برای ارائه کمی، اما با دقت: تنها سیگنال های مربوطه، در به موقع و به یک فرد مسئول/ربات با گام بعدی قابل درک است.
اصول:- قابل اجرا به طور پیش فرض: هر هشدار دارای مالک، اولویت، زمان پاسخ و دکمه عمل است.
- SLO-first: هشدارها در اطراف SLI/SLO ساخته می شوند، نه معیارهای دلخواه.
- کنترل سر و صدا: مرده، همبستگی، سرکوب طوفان.
- غنی از متن: ابرداده (منطقه، مستاجر، نسخه، trace_id) و پیوند به runbook.
- حسابرسی آماده: تمام هشدارها و واکنش ها در ورود به سیستم بدون تغییر تایید شده و ذخیره می شوند.
2) منابع سیگنال
اون ها. تله متری: در دسترس بودن، p95/p99، نرخ خطا، تاخیر صف، محدودیت منابع.
رویدادهای کسب و کار: PriceMismatch، WebhookLag، رانش RTP، سیگنال های تقلب.
امنیت/انطباق: نقض SoD، دسترسی PII، انقضای کلید/گواهی.
زمانبندی: وظایف SLA منقضی شده، بهمن DLQ، طوفان مجدد.
3) طبقه بندی و اولویت ها
Guardrails: هشدار در مورد بودجه SLO/خطا (نرخ سوختن) فرموله شده است.
4) مسیریابی و تشدید 24 × 7
مسیریابی بر اساس زمینه: «منطقه/مستاجر/محصول/ارائه دهنده/شدت».
نردبان پله برقی: مهندس تماس → فرمان → مدیر وظیفه → Exec/Legal (برای PII/Finance).
وظیفه: چرخش توسط نقش (SRE، برنامه، داده ها، امنیت، پرداخت)، مخاطبین پشتیبان (چت/صدا/اس ام اس).
پنجره های سکوت: شب، انتشار، بازاریابی ؛ استثنا برای P1
5) کاهش نویز و همبستگی
Deduplication: توسط '(اثر انگشت، منطقه، مستاجر، مسیر) و' trace _ id '.
سرکوب طوفان: سرکوب موقت تکراری با P1 فعال.
همبستگی: گروه بندی سیگنال ها در اطراف علت ریشه (انتشار/ویژگی/ارائه دهنده).
هیسترزیس: ورود/خروج از آستانه - متفاوت برای جلوگیری از «دید».
6) محتوای هشدار (قالب)
عنوان: مختصر و اساسی - «EU/Checkout: p95> 250ms (نقض SLO)».
زمینه های کلیدی: اولویت، زمان، منطقه، مستاجر، نسخه، trace_id،٪ آسیب دیده، †. دلیل آن.
چه باید بکنید: اولین 1-3 مرحله + یک لینک به runbook/دکمه (دوباره مسیر، بازگشت، مکث تبلیغی).
ارتباط بعدی: در N دقیقه، مالک (IC/در تماس).
7) کانال های تحویل
چت/مسنجر: کانال اصلی تریاژ (کارت های ربات با دکمه).
پیجر/صدا/اس ام اس: برای P1.
ایمیل: گزارش و غیر فوری (P3/Info).
Webhooks: ادغام با فروش بلیط/ارکسترها.
صفحه وضعیت: اطلاع رسانی خارجی از مشتریان و شرکا.
8) ادغام و دکمه های عمل
ربات حادثه: یک کارت ایجاد می کند، یک IC را اختصاص می دهد، یک پل ویدئویی را باز می کند، تایمر را شروع می کند.
Руны (خودکار اقدامات): دوباره مسیر، بازگشت، افزایش حد، کش خیط و پیت کردن، غیر فعال کردن Webhooks، فعال کردن حالت امن.
حقوق: Runes راه اندازی محدود به نقش ؛ تمام اقدامات امضا شده و ثبت شده است.
9) چند منطقه و چند مستاجر
SLO/آستانه مستقل بر اساس منطقه ؛ حوادث محلی تمام جهان را «نقاشی» نمی کنند.
فیلترهای دید: شرکا/مستاجران فقط خودشان را می بینند.
الزامات قضایی: متون اطلاع رسانی، زبان ها، مناطق زمانی.
10) سیاست ها، برنامه ها، پنجره های سکوت
سیاست هشدار: صاحبان، آستانه ها، کانال ها، افزایش، قالب ها.
تقویم: ساعات کار/غیر کار، پنجره های انتشار/بازاریابی.
تغییر یخ: کاهش آستانه یا سرکوب «non-P1» در طول سهام بزرگ.
11) حسابرسی و تثبیت قانونی
رسید: برای هشدار بحرانی - 'receipt _ hash' و امضای DSSE.
ثبت وقایع WORM: ذخیره غیرقابل تغییر رویدادها و واکنش ها (چه کسی تأیید کرد که چه کاری انجام داده است).
زنجیره ای از بازداشت: ردیابی تشدید و تصمیم گیری.
12) معیارهای سیستم اطلاع رسانی و SLO
MTTA (تصدیق): P1 ≤ 5-10 دقیقه ؛ P2 ≤ 30 دقیقه
نرخ صفحه/بار در تماس: سیگنال در هر تغییر - در محدوده هدف.
مثبت کاذب٪: ≤ آستانه هدف (به طور معمول <10-15٪).
بازده همبستگی: نسبت سیگنال های گروه بندی شده ≥ 80٪.
SLO تحویل: چت ≥ 99. 9٪، اس ام اس/صدا ≥ 99. 5%.
زمان به عمل: p95 برای اجرای رونز از هشدار.
13) داشبورد و گزارش
عملیاتی: حوادث فعال، نرخ سوختگی، نقشه منطقه/مستاجر، صف هشدار.
کیفیت هشدار: سر و صدا، FP، بازپرداخت آستانه، مناطق خاموش.
بار در تماس: فرکانس صفحه بندی، زمان پاسخ، «خارج از ساعت».
پس از حادثه: کارایی رونز، باعث عود می شود.
14) ویژگی های iGaming/fintech
پرداخت/PSP: P1 - شکست ارائه دهنده, افزایش در شکست مجوز; مسیر خودکار به PSP پشتیبان.
RTP و محدودیت: هشدار به مشاهده رانش RTP, بیش از محدودیت, الگوهای پیروزی مشکوک.
وابسته/webhooks: تاخیر تحویل، رشد دو برابر، افت در رسید تایید شده است.
قیمت/FX/مالیات: vitrina↔checkout عدم تطابق، از نسخه های مصنوعی همگام سازی.
بازی مسئول: RG باعث و تشدید به موقع خود را در پشتیبانی/انطباق.
15) RACI
16) چک لیست پیاده سازی
- تعریف ستاره شمالی و SLI/SLO ؛ هشدارها را با نرخ سوختگی مرتبط کنید.
- دایرکتوری سیاست را وارد کنید: آستانه ها، کانال ها، افزایش، پنجره های سکوت.
- پیاده سازی بن بست، همبستگی، هیسترزیس، سرکوب طوفان.
- پیکربندی قوانین دید چند منطقه ای و چند مستاجر.
- اتصال «دکمه های عمل» و runbooks ؛ محدود کردن حقوق پرتاب
- فعال کردن WORM/بیل، ردیابی trace_id و زمان اجرا حسابرسی.
- ساخت داشبورد با کیفیت (سر و صدا، FP، MTTA، نرخ صفحه).
- Провести GameDay: قطع PSP، WebhookLag، PriceMismatch، رانش RTP.
- به طور منظم بررسی آستانه ؛ A/B معیارهای «گنگ» را محدود می کند.
- در تماس با بار و بهبود گزارش ماهانه.
17) کتاب های بازی (مرجع)
قطع PSP (P1): مسیر خودکار برای رزرو، کاهش زمان توقف مشتری، قرنطینه معاملات «خاکستری»، به روز رسانی وضعیت در 15 دقیقه.
WebhookLag (P2): افزایش کارگران/دسته، اولویت بندی صف، مکث زمانی از نقاط پایانی اختیاری.
PriceMismatch (P1/P2): ناتوانی نیروی کش, 'fx _ version/tax _ rule _ version' آشتی, عقبگرد مصنوع, غرامت.
رانش RTP (P2): مکث پاداش/تبلیغی, ممیزی مشخصات, نظارت بر فرمت پنجره.
امنیت: خرابی SoD/MFA (P1/P2): مسدود کردن عملیات، بررسی مجدد JIT، پزشکی قانونی و در صورت لزوم قانونی.
18) سوالات متداول
چگونه مثبت کاذب را کاهش دهیم ؟
قوانین SLO گرا، همبستگی، هیسترزیس، پنجره های آموزش، و تجدید نظر آستانه به طور منظم.
کدام مهمتر است: پوشش یا دقت ؟
برای P1 - دقت و سرعت (ترجیحا کمتر، اما بحرانی). برای P3 - روند و پوشش هزینه.
آیا من نیاز به صفحه بندی تلفن ؟
بله، برای P1 ؛ چت ممکن است در دسترس نباشد یا «خاموش» باشد.
چگونه فرمان on-call را «نسوزانیم» ؟
محدودیت نرخ صفحه، توزیع مجدد بار، پیگیری خورشید، بررسی نویز ماهانه.
خلاصه: سیستم اطلاع رسانی و هشدار یک خط لوله کنترل شده از سیگنال به عمل است. آن را بر روی SLO بسازید، سر و صدا را کاهش دهید، مسیر را با متن، دکمه های عمل و همه چیز را به صورت قانونی تعمیر کنید. به این ترتیب شما MTTA را کاهش می دهید، بار را از روی تماس حذف می کنید و انعطاف پذیری کسب و کار را حتی با افزایش شدید و شکست های ارائه دهنده افزایش می دهید.