GH GambleHub

مصفوفة التصعيد

1) الغرض من المصفوفة

مصفوفة التصعيد هي قواعد موحدة حول من يتصل ومتى، بحيث تنتقل الحوادث بسرعة من الفوضى إلى العملية المدارة. تحدد:
  • ومستويات التقييم الخاص ومعاييرها ؛
  • التوقيت (الكشف عن → → تصاعد → التحديثات) ؛
  • الأدوار/القنوات لكل خطوة
  • الاستثناءات (عدم وجود ساعات هدوء للأمن والامتثال)
  • حزمة مع كتب اللعب وصفحة الحالة.

2) التصنيف حسب الشدة (SEV)

SEVتأثيرأمثلةأهداف الزمن
SEV-0عدم توفر الأعمال/البيانات الرئيسية بالكاملهبوط إقليمي، فقدان البيانات Tier-0إعلان ≤ 5 м ؛ الاتصالات الأولى ≤ 10 м ؛ MTTR - في أسرع وقت ممكن
SEV-1تدهور خطير في المدار الثابت بالنسبة للأرضالمدفوعات -3٪ إلى SLO، p95> 400 msإعلان ≤ 10 м ؛ الاتصالات الأولى ≤ 15 м ؛ التحديثات q = 15-30 м
SEV-2التحلل/التجاوز الجزئي ممكنيسقط مزود واحد، وهناك فولباكإعلان ≤ 20 м ؛ الاتصالات حسب الحاجة
SEV-3تأثير منخفض/داخليغير العميل الذي يؤثر على الإخفاقاتلا توجد تحديثات عامة

حدد الأرقام المستهدفة للمجال الخاص بك و SLO.

3) المصفوفة الأساسية من/متى/أين

حدثالتوقيتمن يبدأمن نصعدالقناة/الأداةتعليق
الكشف (صفحة)T0 → على الفورMonitoring/P1ف 1Pager/دردشة # تنبيهات svcإرفاق Playbook Auto
صفحة ACK≤ 5 دقائق (SEV-1/0)ف 1بيجرإذا لم يكن هناك ACK - التصعيد التلقائي
لا ACK5 دقائقبيجرف 2بيجر/صوتعلاوة على ذلك - IC في 5-10 دقائق
أعلن SEV-1/0≤ 10 دقائقIC/P1مدير الخدمة، Comms# war-room- ، صفحة الحالةإطلاقات التجميد
الاتصالات الأولى≤ 15 دقيقةالاتصالات (بواسطة IC)العملاء/Int. أصحاب المصلحةصفحة الحالة/البريدنموذج Impact-Diag-Actions-ETA
الزناد الأمنيفي الحالالأمن IRIC، Legal، Exec# sec-war-roomبدون ساعات هادئة
مزود أحمر≤ 5 دقائق بعد التأكيدمالك البائعIC، المنتجقناة/بريد البائعبدء التبديل
لا يوجد تحديث> 30 دقيقة (SEV-1/0)قاربIC/Commsغرفة الحربتحديث SLA تذكير

4) شجرة التصعيد الحاسمة (الجوهر)

1. أي تأثير مؤكد على SLO ؟

→ نعم: قم بتعيين IC، وأعلن SEV، وافتح غرفة حرب.
→ لا: تذكرة/ملاحظة، لا توجد صفحة.

2. هل حصلت على ACK في الوقت المحدد ؟

→ نعم: نواصل اللعب.
→ لا: P2 → IC → DM (سلم في الوقت المناسب).

3. الأمن/التسريب/PII ؟

→ دائمًا ما يتم تنسيق الاتصالات العامة للأمن IR + Legal.

4. مزود خارجي ؟

→ تصعيد مالك البائع، تبديل الطريق، إصلاح الحالة.

5) تصعيد الأدوار والمسؤوليات (قصير)

P1 (الابتدائي): الفرز، بدء اللعبة، الارتباط بـ IC.
P2 (ثانوي): الدعم، الإجراءات المعقدة، الاحتفاظ بالسياق.
IC (قائد الحادث): يعلن SEV، ويقرر التجميد/التراجع، ويواكب السرعة.
المدير المناوب: يزيل الأقفال، ويعيد توزيع الموارد، ويتخذ القرارات التنظيمية.
الاتصالات: صفحة الحالة، تحديثات SLA.
الأمن IR: العزل، الطب الشرعي، الإخطارات القانونية.
مالك البائع: مزودون خارجيون، تبديل/احتياطي.

6) أدلة مؤقتة (معالم)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q = 15-30 м.
السلم المتحرك: P1→P2 (5 م) → IC (10 م) → مدير الخدمة (15 م) → Exec تحت الطلب (30 م).
الأمن: بدون تأخير و «ساعات هادئة»، التحديثات q = 15 م.

7) التوجيه والتجزئة

حسب الخدمة/المنطقة/المستأجر: مفتاح التوجيه = «الخدمة + المنطقة + المستأجر».
نصاب المجسات: يتصاعد فقط إذا تأكدت مصادر مستقلة ≥2 (اصطناعية من مناطق 2 + RUM/business SLI).
Dedup: تنبيه رئيسي واحد بدلاً من عشرات الأعراض (DB «الأحمر» يكبح ضوضاء 5xx).

8) الاستثناءات والأساليب الخاصة

الأمن/الشؤون القانونية: تصعيد العلاقات بين الأمن والشؤون القانونية ؛ النصوص العامة فقط من خلال التنسيق.
مقدمو الخدمات: مصفوفة منفصلة لمكتب الشؤون القانونية/جيش تحرير السودان (جهات اتصال، مناطق زمنية، أولوية).
تجميد التغيير: إذا كان SEV-1/0 - التجميد التلقائي للإطلاقات والتكوينات.

9) مقاييس نضج المصفوفة

Ack p95 (SEV-1/0) ≤ 5 دقائق.
حان الوقت للإعلان (متوسط) ≤ 10 دقائق.
الالتزام بـ SLA ≥ 95٪.
نجاح التصعيد (تم حله على المستوى P1/P2) ≥ 70٪.
تصعيد No-ACK ↓ QoQ.
وقت استجابة البائع لمقدمي الخدمات المهمين ضمن العقد.

10) القوائم المرجعية

عبر الإنترنت (عند الطلب)

  • تم تحديد تأثير SLO و SEV المحتمل.
  • ACK made and IC assisted (for SEV-1/0).
  • غرفة حرب مفتوحة، كتاب قواعد اللعبة مرفق.
  • تحديث الحالة الذي نشره/خطط له جيش تحرير السودان.
  • تمكين التجميد (إذا لزم الأمر)، تصاعد المزود/الأمان.

العملية (استعراض أسبوعي)

  • هل عمل سلم التصعيد على جيش تحرير السودان ؟
  • هل كان هناك أي تصعيد غير ضروري قبل IC ؟
  • هل إخطارات العملاء في الوقت المناسب ودقيقة ؟
  • هل كانت هناك حاصرات (الوصول، اتصالات المزود، القناة الصامتة) ؟
  • توجد أيضًا خطط العمل الشاملة لإخفاقات العمليات.

11) قوالب

11. 1 سياسة التصعيد (فكرة YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 بطاقة تصعيد الوقت (للبوت)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 نموذج لأول تحديث عام


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) التكامل

تنبيه كرمز: تشير كل قاعدة صفحة إلى كتاب لعب واحد بالضبط وتعرف مصفوفة التصعيد الخاصة بها.
ChatOps: أوامر '/إعلان sev1 '، '/page p2'، '/تحديث الحالة '، مؤقتات تلقائية للتحديثات.
CMDB/Catalog: تحتوي الخدمة على مالكين، تحت الطلب، مصفوفة، مزودين، قنوات.
صفحة الحالة: نماذج SEV-1/0، تحديث التاريخ، روابط إلى RCA.

13) الأنماط المضادة

«تصاعد دفعة واحدة» → الضوضاء والمسؤولية غير الواضحة.
لا توجد غرفة حرب/غرفة حرب - تتسلل الحلول إلى الدردشات.
تأخير التحديث الأول - زيادة في الشكاوى ومخاطر العلاقات العامة.
لا استثناءات أمنية - مخاطر قانونية.
مزودون خارجيون بدون مالك واتصالات.
السلالم ليست آلية - كل شيء «على فرملة اليد».

14) خارطة طريق التنفيذ (3-5 أسابيع)

1. نيد. 1: تحديد معايير وتوقيت SEV ؛ اجمع قنوات الاتصال بالدور/المزود.
2. نيد. 2: وصف السياسة (YAML)، والالتزام بـ Alert-as-Code، وتشغيل السلم في pager/bot.
3. نيد. 3: تجريبية بشأن 2-3 خدمات حيوية ؛ تنقيح اتصالات وقوالب SLA.
4. نيد. 4-5: توسيع التغطية، وتقديم مراجعة التصعيد الأسبوعية ومقاييس النضج.

15) خلاصة القول

مصفوفة التصعيد هي الدستور التشغيلي للحوادث: من ومتى وكيف يرتبط. مع SEVs والتوقيت والقنوات الواضحة والاستثناءات الأمنية والتكامل مع كتب اللعب وصفحة الحالة، يتفاعل الفريق بسرعة وتماسك وشفافية، ويرى المستخدمون تحديثات يمكن التنبؤ بها واسترداد واثق للخدمة.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.