GH GambleHub

إدارة الحوادث

(القسم: التكنولوجيا والهياكل الأساسية)

موجز موجز

إدارة الحوادث هي عملية قابلة للتكرار لاستعادة قيمة المستخدم بسرعة وتقليل الأضرار التجارية. الدعم - أدوار واضحة (مدير الحوادث، Tech Lead، Comms)، بوابات SLO، التصعيد، عمليات ChatOps، الجداول المعدة والتحليل «غير الضار» بعد الحادث مع عناصر عمل قابلة للقياس.

1) الأهداف والمبادئ

السرعة والسلامة: التشخيص السريع → الاستقرار الآمن → التعافي المستدام.
المالك الوحيد - يتخذ مدير الحوادث المعين (IM) قرارات العملية.
الاتصالات كمنتج: تحديثات يمكن التنبؤ بها لأصحاب المصلحة والمستخدمين.
البيانات> الآراء: SLO/metrics/trails/logs هي مصدر الحقيقة.
بلا لوم: تحليل الأسباب دون توجيه اتهامات شخصية ؛ التركيز على تحسين النظام.

2) تصنيف الحوادث (الخطورة/التأثير/الاستعجال)

الشدة (مثال):
  • SEV1 (خطير): أضرار جسيمة في الإيرادات/المدفوعات/TTW، أكثر من 20 في المائة من المستخدمين أو مناطق بأكملها ؛ ضعفت جيش تحرير السودان/خطر PII.
  • SEV2 (مرتفع): التدهور الجزئي للتدفقات الرئيسية (الإيداع/الرهان/إطلاق الألعاب)، التأثير 5-20٪.
  • SEV3 (متوسط): تدهور ملحوظ في الخدمات الثانوية، هناك تجاوز.
  • SEV4 (منخفض): طفيف، محدود الأثر، لا أثر له على جيش تحرير السودان/جيش تحرير السودان.

التأثير: من يتأثر (كل/منطقة/مستأجر/قناة). الإلحاح: معدل التدهور (الحرق السريع/الحرق البطيء بميزانية الخطأ).

3) دورة حياة الحادث

1. كشف - إشارة من التنبيهات/SLO/synthetics/reports.
2. نعترف - أثناء الطلب يؤكد الاستقبال، ويعين IM.
3. الفرز - SEV/Impact score، مجموعة فرضية، اكتشاف War-Room.
4. التخفيف - التثبيت (التراجع/تبديل المسار/phicheflags/scaling).
5. الاتصال - تحديثات الحالة العادية (من الداخل/إلى الخارج).
6. استرداد - استرداد مقاييس SLO/الأعمال بالكامل.
7. قريب - تسجيل التسلسل الزمني، مجموعة القطع الأثرية، PIR (بنود العمل RCA +).

4) الأدوار والمسؤوليات (RACI)

مدير الحوادث (IM) - مالك العملية، يعين الأدوار، يراقب الوقت، يتخذ قرارات العملية (R).
الرصاص التقني (TL) - يجري التشخيص/الفرضيات/الإصلاحات، وينسق المهندسين (A/R).
الاتصالات (Comms) - تحديثات الحالة، الاتصال بالدعم/الأعمال/العلاقات العامة، صفحة الحالة (R).
Scribe - protocol (timeline, decisions made, links, articles) (R).
أصحاب المصلحة - المنتج/المدفوعات/مزودي الألعاب/الأمان (C/I).

الحد الأدنى لكل SEV1: IM + TL + Comms + Scribe. يُسمح له بالجمع بين الأدوار على SEV2.

5) War-Room и ChatOps

القنوات الفردية: «# incident-warroom- <id>» (العمل)، «# حالة الحادث» (التحديثات فقط).
أوامر القالب: «/بدء الحادث »، «/تحديث الحالة»، «/الاتصال <المالك> »، «/التراجع»، «/التجميد »، «/المقياس + N».
يسحب الروبوت السياق: الإصدارات الأخيرة، ولوحات القيادة، والتنبيهات ذات الصلة، ونماذج النزر، ومخططات التبعية.
قواعد الاتصال: بإيجاز، بشأن الوقائع، متكلم واحد (TL)، ومعتدل IM.

6) المشغلات والبوابات

بوابات SLO: حرق سريع/بطيء، انخفاض تحويل الدفع، TTW p95> عتبة، p99 API ↑، طوابير الدفع مشتعلة.
الإجراءات التلقائية: إيقاف الكناري، التراجع، تمكين وضع التحلل (الحد من الوظائف)، مما يتيح التخليق عالي التردد.
التجميد: جميع عمليات إطلاق/هجرة القدم قبل تحقيق الاستقرار وتقرير تنفيذ البرامج.

7) السيناريوهات النموذجية (أنماط الرونابوك)

أ) المدفوعات: زيادة في المهلات/الإخفاقات في PSP

1. توقف عن الترويج لإصدارات حلقة الدفع وتجميدها.
2. قم بتبديل مسار PSP إلى المسار الاحتياطي، ورفع المهلة/إعادة الدفع حسب السياسة.
3. تسوية المعاملات غير المكتملة، والتكرار مع المفاتيح الخفية.
4. الاتصال → الدعم: هل تعمل احتياطيًا ؟ إيتا.

ب) واجهة برمجة التطبيقات p99↑ و 5xx بعد الإصدار

1. التراجع (الأزرق والأخضر/الكناري → مستقر).
2. تحقق من ضربة ذاكرة التخزين المؤقت، وعمق قائمة الانتظار، والنقاط الساخنة لقاعدة البيانات/مزود اللعبة.
3. التحجيم المؤقت، والحد من الميزات الثقيلة من خلال أعلام الميزات.

ج) عدم توفر مزود اللعبة

1. حوّل حركة المرور إلى الاستوديوهات/الألعاب المتاحة، وعرض لافتة الحالة.
2. قم بتشغيل الفحوصات الاصطناعية كل 30-60 ثانية.
3. الموافقة على التعويض/المكافآت (حسب السياسة) - أضف إلى PIR.

دال) التسرب/الاشتباه في مؤشر الاستثمار الدولي

1. عزل المكونات، إلغاء المفتاح/الرمز، جمع السجل (WORM).
2. الاتصال القانوني/المواءمة التنظيمية.
3. إجراءات ما بعد الحادث: التناوب السري، والإخفاء، والوصول.

8) الاتصالات (الداخلية/الخارجية)

تردد التحديث: SEV1 - كل 15-30 دقيقة، SEV2 - 30-60 دقيقة.

نموذج الوضع الداخلي:
  • ما تم كسره: "الودائع عبر PSP-X: The Rise of Timeouts'.
  • متأثر: «TR/BR، ~ 18٪ من مستخدمي البث».
  • عندما بدأت: «12:07 EET، SEV1.»
  • ما نقوم به: «تبديل المسار إلى PSP-Y، تمكين إعادة التدريب/الحد الأقصى للسعر».
  • التحديث التالي: «في 20 دقيقة».
  • جهة الاتصال: «IM @ duty-im، TL @ oncall-pay».

الوضع العام (صفحة/شبكات اجتماعية) - مختصر، بدون PII وتفاصيل غير ضرورية، مع ETA ورابط لمزيد من التحديثات.

9) جمع القطع الأثرية ومراجعة الحسابات

الجدول الزمني للحدث (دقة دقيقة)، إصدارات الخدمة، أعلام الميزات، تغييرات التهيئة.
صور لوحات القيادة، الطرق التقريبية (trace_id)، جذوع الأشجار «قبل/أثناء/بعد».
روابط إلى التذاكر والعلاقات العامة والإصدارات والرونابوك.
تقرير البلاغات (متى/إلى/ماذا).
كل هذا يضيف إلى بطاقة الحادث.

10) الإغلاق وتقرير تنفيذ البرامج (مراجعة ما بعد الحادث)

شكل تقرير تنفيذ البرامج (مختصر):
  • الملخص: ما حدث، المقياس، المدة، SEV.
  • التأثير: المستخدمون/الأقاليم، SLO/SLA، تأثير Fin.
  • الجدول الزمني: بالتفصيل، بالدقيقة.
  • السبب الجذري: تقني + تنظيمي (لماذا لم يتم اكتشافه سابقًا).
  • الاكتشافات والدفاعات: ما ساعد/فشل (التنبيهات، المواد التركيبية، phicheflags).
  • بنود العمل: مهام محددة، ومالكون، ومواعيد نهائية (وكيفية التحقق من التأثير).
  • الدروس المستفادة: ما نغيره في العملية/الهندسة المعمارية/إمكانية الرصد.

القواعد: لا توجد رسوم، والحقائق القصوى، والمتابعة الإلزامية بعد 2-4 أسابيع من التحقق من العناصر المكتملة.

11) مقاييس موثوقية العملية

MTTD - متوسط الوقت للكشف

MTTA (... اعترف) - قبل التأكيد عند الطلب.
MTTR (... استعادة) - حتى استعادة SLO.
معدل فشل التغيير -٪ من الإصدارات التي تؤدي إلى حوادث.
معدل الحوادث حسب SEV، التوزيع حسب المجال (المدفوعات/الألعاب/Infra).
جودة التنبيه: نسبة الضجيج/الخطأ، وقت العمل بعد التنبيه.
Comm-SLA: الامتثال لتواتر تحديثات الحالة.

12) التكامل مع SLO والإطلاقات

Gates in CD: canary promotion only with green SLO proxies (available, p95, conv, TTW).
إجراءات التجميد: عند fast-burn/SEV1 - توقف عن الإصدارات قبل تقرير تنفيذ البرامج.
الشروح التلقائية في الرسوم البيانية: الإطلاقات/الأعلام/الهجرات مرئية على لوحات القيادة.

13) التنظيم والامتثال

PII: الإخفاء/التسمية في السجلات/المسارات، ومخازن تدقيق WORM، ومراقبة الوصول.
الإقليمية: لا تأخذ بيانات المستخدم خارج الولايات القضائية المسموح بها.
الإبلاغ: رسائل/إخطارات رسمية إلى المنظمين - نماذج وعملية تصعيد.

14) التعلم والاستعداد (يوم اللعبة)

التمارين الفصلية: «PSP drop»، «مزود اللعبة غير متاح»، «p99 surge»، «تسرب المفتاح».
Timers on MTTA/MTTR، قديم أثناء التمرين.
تحديث الجداول وجهات الاتصال، والتحقق من أوامر ChatOps.

15) قائمة الجاهزية المرجعية (قبل الحادث)

1. تم الاتفاق على قواعد SEV ومصفوفة التصعيد.
2. تم تعيين عمليات التناوب عند الطلب، IM/TL/Comms/Scribe.
3. رونابوك للسيناريوهات الرئيسية (المدفوعات والألعاب وقواعد البيانات والمخابئ وقوائم الانتظار).
4. بطاقة SLO وتنبيهات معدل الحرق، صفحة الحالة.
5. روبوت ChatOps: أوامر، سياق تلقائي، نماذج الحالة.
6. نماذج PIR وبطاقات الحوادث.
7. مراجعات منتظمة ليوم اللعبة والاتصال/حقوق الإنسان.
8. سياسة التجميد و «الزر الأحمر» (التراجع/مفتاح القتل).

16) أنتيباترن

لا يوجد IM واحد، «الحشد يقود» → الفوضى والتأخير.
عدم وجود بوابات SLO → الكشف المتأخر، التنبيهات الصاخبة.
إطلاق سراحه خلال حادثة دون تجميد → حوادث متتالية.
الجذوع والمسارات ليست كافية، ولا توجد قطع أثرية → ضعف PIR.
الثقافة الاتهامية → الأخطاء الخفية، الخوف من التصعيد.
الاتصالات الملهمة → فقدان ثقة الأعمال/المستخدم.

17) قوالب (نسخة إلى ويكي الخاص بك)

أ) بطاقة الحادث (YAML)

yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"

باء) تحديث الحالة (داخلي)


[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im      TL: @oncall-pay

C) PIR (cap)


Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.

موجز

الإدارة القوية للحوادث هي الهيكل + الانضباط: الأدوار المتفق عليها مسبقًا، وبوابات SLO، والرونابوكات العاملة، والاتصالات الشفافة، و PIR «غير الضارة». تقلل هذه الحلقة من MTTA/MTTR، وتقلل من تكلفة التوقف عن العمل، وتبني ثقة المستخدم وتسمح لك بإطلاق سراح أكثر جرأة - ولكن بأمان.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.