مصفوفة التصعيد
1) الغرض من المصفوفة
مصفوفة التصعيد هي قواعد موحدة حول من يتصل ومتى، بحيث تنتقل الحوادث بسرعة من الفوضى إلى العملية المدارة. تحدد:- ومستويات التقييم الخاص ومعاييرها ؛
- التوقيت (الكشف عن → → تصاعد → التحديثات) ؛
- الأدوار/القنوات لكل خطوة
- الاستثناءات (عدم وجود ساعات هدوء للأمن والامتثال)
- حزمة مع كتب اللعب وصفحة الحالة.
2) التصنيف حسب الشدة (SEV)
حدد الأرقام المستهدفة للمجال الخاص بك و SLO.
3) المصفوفة الأساسية من/متى/أين
4) شجرة التصعيد الحاسمة (الجوهر)
1. أي تأثير مؤكد على SLO ؟
→ نعم: قم بتعيين IC، وأعلن SEV، وافتح غرفة حرب.
→ لا: تذكرة/ملاحظة، لا توجد صفحة.
2. هل حصلت على ACK في الوقت المحدد ؟
→ نعم: نواصل اللعب.
→ لا: P2 → IC → DM (سلم في الوقت المناسب).
3. الأمن/التسريب/PII ؟
→ دائمًا ما يتم تنسيق الاتصالات العامة للأمن IR + Legal.
4. مزود خارجي ؟
→ تصعيد مالك البائع، تبديل الطريق، إصلاح الحالة.
5) تصعيد الأدوار والمسؤوليات (قصير)
P1 (الابتدائي): الفرز، بدء اللعبة، الارتباط بـ IC.
P2 (ثانوي): الدعم، الإجراءات المعقدة، الاحتفاظ بالسياق.
IC (قائد الحادث): يعلن SEV، ويقرر التجميد/التراجع، ويواكب السرعة.
المدير المناوب: يزيل الأقفال، ويعيد توزيع الموارد، ويتخذ القرارات التنظيمية.
الاتصالات: صفحة الحالة، تحديثات SLA.
الأمن IR: العزل، الطب الشرعي، الإخطارات القانونية.
مالك البائع: مزودون خارجيون، تبديل/احتياطي.
6) أدلة مؤقتة (معالم)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q = 15-30 м.
السلم المتحرك: P1→P2 (5 م) → IC (10 م) → مدير الخدمة (15 م) → Exec تحت الطلب (30 م).
الأمن: بدون تأخير و «ساعات هادئة»، التحديثات q = 15 م.
7) التوجيه والتجزئة
حسب الخدمة/المنطقة/المستأجر: مفتاح التوجيه = «الخدمة + المنطقة + المستأجر».
نصاب المجسات: يتصاعد فقط إذا تأكدت مصادر مستقلة ≥2 (اصطناعية من مناطق 2 + RUM/business SLI).
Dedup: تنبيه رئيسي واحد بدلاً من عشرات الأعراض (DB «الأحمر» يكبح ضوضاء 5xx).
8) الاستثناءات والأساليب الخاصة
الأمن/الشؤون القانونية: تصعيد العلاقات بين الأمن والشؤون القانونية ؛ النصوص العامة فقط من خلال التنسيق.
مقدمو الخدمات: مصفوفة منفصلة لمكتب الشؤون القانونية/جيش تحرير السودان (جهات اتصال، مناطق زمنية، أولوية).
تجميد التغيير: إذا كان SEV-1/0 - التجميد التلقائي للإطلاقات والتكوينات.
9) مقاييس نضج المصفوفة
Ack p95 (SEV-1/0) ≤ 5 دقائق.
حان الوقت للإعلان (متوسط) ≤ 10 دقائق.
الالتزام بـ SLA ≥ 95٪.
نجاح التصعيد (تم حله على المستوى P1/P2) ≥ 70٪.
تصعيد No-ACK ↓ QoQ.
وقت استجابة البائع لمقدمي الخدمات المهمين ضمن العقد.
10) القوائم المرجعية
عبر الإنترنت (عند الطلب)
- تم تحديد تأثير SLO و SEV المحتمل.
- ACK made and IC assisted (for SEV-1/0).
- غرفة حرب مفتوحة، كتاب قواعد اللعبة مرفق.
- تحديث الحالة الذي نشره/خطط له جيش تحرير السودان.
- تمكين التجميد (إذا لزم الأمر)، تصاعد المزود/الأمان.
العملية (استعراض أسبوعي)
- هل عمل سلم التصعيد على جيش تحرير السودان ؟
- هل كان هناك أي تصعيد غير ضروري قبل IC ؟
- هل إخطارات العملاء في الوقت المناسب ودقيقة ؟
- هل كانت هناك حاصرات (الوصول، اتصالات المزود، القناة الصامتة) ؟
- توجد أيضًا خطط العمل الشاملة لإخفاقات العمليات.
11) قوالب
11. 1 سياسة التصعيد (فكرة YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 بطاقة تصعيد الوقت (للبوت)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 نموذج لأول تحديث عام
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) التكامل
تنبيه كرمز: تشير كل قاعدة صفحة إلى كتاب لعب واحد بالضبط وتعرف مصفوفة التصعيد الخاصة بها.
ChatOps: أوامر '/إعلان sev1 '، '/page p2'، '/تحديث الحالة '، مؤقتات تلقائية للتحديثات.
CMDB/Catalog: تحتوي الخدمة على مالكين، تحت الطلب، مصفوفة، مزودين، قنوات.
صفحة الحالة: نماذج SEV-1/0، تحديث التاريخ، روابط إلى RCA.
13) الأنماط المضادة
«تصاعد دفعة واحدة» → الضوضاء والمسؤولية غير الواضحة.
لا توجد غرفة حرب/غرفة حرب - تتسلل الحلول إلى الدردشات.
تأخير التحديث الأول - زيادة في الشكاوى ومخاطر العلاقات العامة.
لا استثناءات أمنية - مخاطر قانونية.
مزودون خارجيون بدون مالك واتصالات.
السلالم ليست آلية - كل شيء «على فرملة اليد».
14) خارطة طريق التنفيذ (3-5 أسابيع)
1. نيد. 1: تحديد معايير وتوقيت SEV ؛ اجمع قنوات الاتصال بالدور/المزود.
2. نيد. 2: وصف السياسة (YAML)، والالتزام بـ Alert-as-Code، وتشغيل السلم في pager/bot.
3. نيد. 3: تجريبية بشأن 2-3 خدمات حيوية ؛ تنقيح اتصالات وقوالب SLA.
4. نيد. 4-5: توسيع التغطية، وتقديم مراجعة التصعيد الأسبوعية ومقاييس النضج.
15) خلاصة القول
مصفوفة التصعيد هي الدستور التشغيلي للحوادث: من ومتى وكيف يرتبط. مع SEVs والتوقيت والقنوات الواضحة والاستثناءات الأمنية والتكامل مع كتب اللعب وصفحة الحالة، يتفاعل الفريق بسرعة وتماسك وشفافية، ويرى المستخدمون تحديثات يمكن التنبؤ بها واسترداد واثق للخدمة.