نظام الإخطار والإنذار
(القسم: العمليات والإدارة)
1) الغرض والمبادئ
الهدف هو تقديم القليل، ولكن بدقة: فقط الإشارات ذات الصلة، في الوقت المناسب وإلى شخص/روبوت مسؤول بخطوة تالية مفهومة.
المبادئ:- قابل للتنفيذ افتراضيًا: يحتوي كل تنبيه على مالك وأولوية ووقت استجابة وزر عمل.
- SLO-أولاً: تم بناء التنبيهات حول SLI/SLO، وليس المقاييس التعسفية.
- التحكم في الضوضاء: الوفاة، الارتباطات، قمع العواصف.
- غنية بالسياق: البيانات الوصفية (المنطقة، المستأجر، النسخة، trace_id) والوصلة إلى الدليل.
- جاهز للتدقيق: يتم الاعتراف بجميع التنبيهات وردود الفعل وحفظها في السجل الذي لم يتغير.
2) مصادر الإشارة
هؤلاء. القياس عن بعد: التوافر، p95/p99، معدل الخطأ، تأخر الانتظار، حدود الموارد.
أحداث الأعمال: إشارات الاحتيال PriceMismatch و WebhookLag و RTP Drift.
الأمن/الامتثال: انتهاكات SoD، الوصول إلى PII، انتهاء صلاحية المفتاح/الشهادة.
المجدول: مهام SLA منتهية الصلاحية، انهيارات جليدية DLQ، إعادة تجربة العواصف.
3) التصنيف والأولويات
حواجز الحماية: يتم صياغة تنبيهات بشأن ميزانية SLO/خطأ (معدل الحرق).
4) التوجيه والتصعيد 24 × 7
التوجيه حسب السياق: «المنطقة/المستأجر/المنتج/المزود/الشدة».
سلم السلم المتحرك: مهندس تحت الطلب → قائد القيادة → مدير الخدمة → Exec/Legal (for PII/Finance).
الواجب: التناوب حسب الدور (SRE، التطبيق، البيانات، الأمان، المدفوعات)، جهات الاتصال الاحتياطية (الدردشة/الصوت/الرسائل القصيرة).
نوافذ الصمت: الليل، الإفراج، التسويق ؛ فيما يتعلق بالرتبة ف-1.
5) تقليل الضوضاء والارتباطات
التفريغ: بواسطة '(بصمة، منطقة، مستأجر، طريق)' و 'تتبع _ هوية'.
قمع العاصفة: القمع المؤقت للمكررات مع P1 النشطة.
الارتباطات: تجميع الإشارات حول السبب الجذري (الإطلاق/الميزة/المزود).
الهستيريا: الدخول/الخروج من العتبة - مختلف لتجنب «المنشار».
6) تنبيه المحتوى (نموذج)
العنوان: موجز وموضوعي - «EU/Checkout: p95> 250 ms (SLO breach)».
المجالات الرئيسية: الأولوية، الوقت، المنطقة، المستأجر، النسخة، trace_id، النسبة المتأثرة، †. السبب.
ماذا تفعل الآن: الخطوات الأولى 1-3 + رابط لدفتر التشغيل/الأزرار (إعادة المسار، Rollback، Pause Promo).
الاتصال التالي: في دقائق N، المالك (IC/تحت الطلب).
7) قنوات التسليم
الدردشة/الرسول: القناة الرئيسية للفرز (بطاقات الروبوت مع الأزرار).
Pager/voice/SMS: for P1.
البريد: التقارير وغير العاجلة (P3/Info).
خطافات الويب: التكامل مع التذاكر/المنسقين.
صفحة الحالة: إخطار خارجي للعملاء والشركاء.
8) أزرار التكامل والعمل
روبوت الحادث: ينشئ بطاقة، ويخصص IC، ويفتح جسر فيديو، ويبدأ المؤقتات.
Руны (الإجراءات التلقائية): إعادة المسار، التراجع، رفع الحد، مخبأ التدفق، تعطيل شبكات الويب، تمكين الوضع الآمن.
الحقوق: إطلاق الرونية يقتصر على الأدوار ؛ يتم التوقيع على جميع الإجراءات وتسجيلها.
9) متعدد المناطق ومتعدد المستأجرين
المنظمات/العتبات المستقلة للأقاليم حسب المنطقة ؛ الحوادث المحلية لا «ترسم» العالم بأسره.
مرشحات الرؤية: يرى الشركاء/المستأجرون فقط ملكهم.
المتطلبات المتعلقة بالولاية القضائية: نصوص الإخطار، واللغات، والمناطق الزمنية.
10) السياسات والجداول الزمنية ونوافذ الصمت
سياسة التنبيه: المالكون، العتبات، القنوات، التصعيد، القوالب.
التقويمات: ساعات العمل/غير ساعات العمل، نوافذ الإفراج/التسويق.
تجميد التغيير: تخفيف العتبات أو قمع «non-P1» أثناء الأسهم الكبيرة.
11) مراجعة الحسابات والتثبيت القانوني
الإيصالات: للتنبيهات الحرجة - «الاستلام _ التجزئة» وتوقيع DSSE.
سجلات WORM: تخزين غير قابل للتغيير للأحداث وردود الفعل (من أكد ما فعلوه).
سلسلة الحراسة: تتبع التصعيد والقرارات.
12) مقاييس نظام الإخطار و SLO
MTTA (الاعتراف): P1 ≤ 5-10 دقيقة ؛ P2 ≤ 30 دقيقة.
معدل الصفحة/الحمل تحت الطلب: إشارات لكل نوبة - في النطاق المستهدف.
نسبة إيجابية خاطئة: ≤ عتبة الهدف (عادة أقل من 10-15٪).
كفاءة الارتباط: نسبة الإشارات المجمعة ≥ 80٪.
التسليم SLO: دردشة ≥ 99. 9٪، الرسائل القصيرة/الصوت ≥ 99. 5%.
Time-to-Action: p95 لتشغيل الرونية من حالة التأهب.
13) لوحات المعلومات والتقارير
التشغيل: الحوادث النشطة، معدل الحرق، خريطة المنطقة/المستأجر، طابور التنبيه.
جودة التنبيه: الضوضاء، FP، إعادة اختبار العتبة، المناطق الصامتة.
الحمل عند الطلب: تردد الاستدعاء، وقت الاستجابة، «خارج الساعات».
ما بعد الحادث: كفاءة الرونية، تسبب التكرار.
14) خصوصية iGaming/fintech
المدفوعات/PSP: P1 - فشل مقدم الخدمة، وزيادة حالات فشل الإذن ؛ الطريق التلقائي إلى PSP الاحتياطي.
RTP & Limits: تنبيهات لانجراف RTP الملاحظ، فوق الحدود، أنماط الفوز المشبوهة.
الشركات التابعة/خطابات الويب: تأخر التسليم، النمو المزدوج، انخفاض الإيصالات المؤكدة.
السعر/FX/الضريبة: عدم تطابق vitrina↔checkout، خارج إصدارات القطع الأثرية المزامنة.
اللعب المسؤول: محفزات RG وتصعيدها في الوقت المناسب لدعم/الامتثال.
15) RACI
16) قائمة التنفيذ المرجعية
- تعريف North-Star و SLI/SLO ؛ التنبيهات المرتبطة مع معدل الحرق.
- أدخل دليل السياسة: العتبات والقنوات والتصعيد ونوافذ الصمت.
- تنفيذ الجمود، الارتباطات، الهستيريا، قمع العواصف.
- ضع قواعد رؤية متعددة المناطق ومتعددة المستأجرين.
- ربط «أزرار العمل» وكتب التشغيل ؛ تقييد حقوق الإطلاق.
- تمكين WORM/Bill و trace_id Trace and Runtime Audit.
- بناء لوحات تحكم عالية الجودة (ضوضاء، FP، MTTA، معدل الصفحة).
- Провести GameDay: انقطاع PSP، WebhookLag، PriceMismatch، RTP Drift.
- استعراض العتبات بانتظام ؛ عتبات A/B على المقاييس «الغبية».
- تقرير شهري عن التحميل والتحسين عند الطلب.
17) كتب اللعب (مرجع)
PSP Outage (P1): الطريق التلقائي إلى المحمية، وخفض مهلة العميل، ومعاملات الحجر الصحي «الرمادي»، وتحديث الحالة في 15 دقيقة.
WebhookLag (P2): زيادة العمال/الدفعة، وتحديد أولويات قائمة الانتظار، والتوقف المؤقت لنقاط النهاية الاختيارية.
PriceMismatch (P1/P2): عجز قوة مخبأ، تسوية «fx _ version/tax _ rule _ version»، التراجع عن القطع الأثرية، التعويضات.
RTP Drift (P2): المكافأة/التوقف الترويجي، تدقيق الملف الشخصي، تمديد نافذة المراقبة.
الأمن: فشل SoD/MFA (P1/P2): منع العمليات، وإعادة فحص JIT، والطب الشرعي والقانوني إذا لزم الأمر.
18) الأسئلة الشائعة
كيف تقلل الإيجابيات الكاذبة ؟
القواعد الموجهة نحو SLO، الارتباطات، الهستيريا، نوافذ التدريب، ومراجعات العتبة المنتظمة.
ما هو الأهم - التغطية أم الدقة ؟
بالنسبة لـ P1 - الدقة والسرعة (ويفضل أن تكون أقل، ولكنها حرجة). بالنسبة للرتبة ف-3 - تغطية الاتجاهات والتكاليف.
هل أحتاج إلى استدعاء الهاتف ؟
نعم، بالنسبة لـ P1 ؛ قد لا تكون الدردشة متاحة أو «صامتة».
كيف لا «تحرق» الأمر تحت الطلب ؟
حدود معدل الصفحة، إعادة توزيع التحميل، متابعة الشمس، مراجعات الضوضاء الشهرية.
الملخص: نظام الإخطار والتنبيه هو خط أنابيب خاضع للرقابة من الإشارة إلى العمل. قم ببنائه على SLO، وتخفيف الضوضاء، والطريق حسب السياق، وإعطاء أزرار الحركة وإصلاح كل شيء بشكل قانوني. بهذه الطريقة تقلل من MTTA، وتزيل العبء عن الطلب وتزيد من مرونة الأعمال حتى مع الارتفاعات الحادة وفشل المزود.