الأدوار والمسؤوليات في العمليات
1) لماذا إضفاء الطابع الرسمي على الأدوار
يقلل تخصيص الأدوار الواضح من MTTA/MTTR، ويقضي على المناطق الرمادية، ويسرع الإطلاقات، ويجعل SLO/الامتثال متوافقًا قابل للتكرار. الأدوار = المسؤولية + السلطة + الواجهات (لمن نكتب، ومن نصعد، وما هي القرارات المصرح بها).
2) نموذج RACI الأساسي
R (مسؤول) - يؤدي العمل.
أ (مسؤول) - يتحمل المسؤولية النهائية ويتخذ القرارات.
جيم (استشاري) - خبير، استشار قبل/أثناء.
1 (أبلغ) - أبلغه جيش تحرير السودان.
3) فهرس الأدوار (الأوصاف والمسؤوليات)
3. 1 قائد حادث (IC)
الغرض: يقود الاستجابة لحادث SEV-1/0.
السلطة: أعلن عن SEV، وتجميد الإصدارات، وتبديل حركة المرور، والتصعيد.
المهام الرئيسية: الجدول الزمني، صنع القرار، الاحتفاظ بالتركيز، تخصيص المهام، Go/No-Go.
القطع الأثرية: بطاقة الحادث، تحديثات SLA، AAR النهائي.
3. 2 P1/P2 تحت الطلب (ابتدائي/ثانوي)
الهدف: الاستجابة الأولية والإجراءات التقنية.
P1: الفرز، تشغيل كتب اللعب، التواصل مع IC.
P2: النسخ الاحتياطي، التغييرات المعقدة، الاحتفاظ بالسياق، في العواصف - يأخذ تيارات فرعية.
3. 3 مهندس SRE/Platform
الغرض: موثوقية المنصة والدرابزين (SLO، تنبيهات، GitOps، autoscale، DR).
المهام: SLI/SLO، نظافة التنبيه، الإصدارات التدريجية، البنية التحتية كرمز، السعة، إمكانية المراقبة.
أثناء الحادث: تشخيص الجذور، التراجع/الفولباك، تمكين تحلل UX.
3. 4 مالك الخدمة/مالك المنتج
الغرض: جودة الخدمة بالمعنى التجاري.
المهام: تحديد أولويات المنظمات غير الحكومية، وتنسيق الإصدارات/النوافذ، والمشاركة في برنامج Go/No-Go.
الاتصالات: تحديد متى وماذا تخبر العملاء جنبًا إلى جنب مع Comms.
3. 5 مدير الإصدار
الغرض: تأمين تسليم التغيير.
المهام: تنظيم الإصدارات، فحص البوابات، الكناري/الأزرق الأخضر، شروح الإصدارات، تجميد الحوادث.
3. 6 رئيس CAB/مدير التغيير
الغرض: تغيير إدارة المخاطر
المهام: عملية RFC، الخطة/التراجع، تقويم الصراع، الموافقات عالية المخاطر.
3. 7 مدير RCA/مدير المشكلة
الغرض: استخلاص المعلومات بعد الحادث، وكالة الاستخبارات الكندية.
الأهداف: الجدول الزمني، وسببية الإثبات، وإجراءات تصحيح/منع التحكم في D + 14/D + 30.
3. 8 الأمان (IR Lead، AppSec/CloudSec)
الغرض: الأمن والاستجابة للحوادث.
المهام: أحداث أمن الفرز، تناوب المفتاح، العزل، الطب الشرعي، الإخطارات التنظيمية، تدقيق WORM.
3. 9 DataOps/Analytics
الغرض: موثوقية البيانات وخطوط الأنابيب.
الأهداف: النضارة/الجودة (DQ)، وعقود البيانات، والنسب، والملء الخلفي، و SLA BI/التقارير.
3. 10 FinOps
الغرض: القيمة المدارة.
المهام: الحصص/الحدود، التقارير $/الوحدة، بوابات الميزانية، التحسينات (أحجام السجلات، الخروج، الحجز).
3. 11 الامتثال/القانوني
الغرض: الامتثال التنظيمي والتعاقدي.
المهام: شروط الإخطار، الاحتفاظ بالأدلة/ثباتها، تنسيق النصوص العامة.
3. 12 الدعم/الاتصالات
الغرض: الاتصالات مع العملاء/أصحاب المصلحة الداخليين.
المهام: صفحة الحالة، نماذج من التحديثات، تواتر ووضوح الرسائل، جمع التعليقات.
3. 13 مدير البائع/مالك المزود
الغرض: العلاقات مع مقدمي الخدمات الخارجيين (PSP/KYC/CDN، إلخ).
المهام: التصعيد، وجيش تحرير السودان/مكتب الشؤون القانونية، والطرق الاحتياطية، وتنسيق النوافذ.
4) الأدوار في التحول والتصعيد
التحول: P1/P2 + IC-of-the-day (لا تتحد مع P1).
تصعيد الوقت: P1→P2 (5 دقائق بدون ack) → IC (10 دقائق) → Duty Manager (15 دقيقة).
الساعات الهادئة: الإشارات P2/P3 لا تستيقظ ؛ إشارات الأمن - دائمًا.
5) أوجه التفاعل (مع من وكيف)
IC ↔ مدير الإصدار: حلول التجميد/التراجع.
IC ↔ Comms: تحديث النصوص والتردد.
SRE ↔ DataOps: SLI للأعمال (نجاح الدفع ونضارة البيانات) في SLO-gardrails.
↔ أمنية قانونية: تقارير عن حوادث أمنية، وفترات إخطار.
مالك البائع ↔ IC: حالة المزود، التبديل/الفولباك.
6) مؤشر الأداء الكوري حسب الدور (المعايير)
IC: Time-to-Declare, Comms SLA compliance, MTTR by SEV-1/0.
P1/P2: MTTA، Time-to-First-Action،٪ يتابعون كتب اللعب.
SRE/Platform: تغطية SLO، تنبيه النظافة،% التراجع التلقائي ناجح.
مدير الإصدار: معدل فشل التغيير، النوافذ في الوقت المحدد، وقت التراجع المتوسط.
قيادة RCA: وقت القيادة بعد الوفاة، إكمال CAPA/المتأخر، إعادة الفتح ≤ 5-10٪.
الأمان: متوسط الوقت للاحتواء، وقت تناوب السر/الشهادة.
DataOps: Freshness SLO الالتزام، معدل النجاح الخلفي.
الاتصالات: دقة الحالة، معدل الشكوى/الحادث.
FinOps: $/unit،% QoQ وفورات، امتثال الحصص.
7) قوالب بطاقة الدور
7. 1 بطاقة IC
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 بطاقة P1/P2
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 بطاقة مدير الإصدار
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) العمليات والمشاركة في الأدوار (موجز)
أ - مسؤول، ص - مسؤول، ج - استشاري، أنا - أبلغ.
9) القوائم المرجعية
9. 1 تحديد الأدوار
- لكل دور مالك وبديل ومنطقة تغطية.
- يتم وصف الأذونات (ما يمكن أن تتخذه القرارات).
- كتب اللعب والوصلات المقيدة.
- تم نشر SLAs حسب رد الفعل/الاتصالات.
- الدور متاح في مصرف التنمية الكاريبي لكل خدمة.
9. 2 نوبة وتسليم
- تحديث بطاقة التحويل (الحوادث النشطة والمخاطر والنوافذ).
- تم التحقق من الوصول إلى JIT/JEA.
- رسالة صدى لتوجيه «التغيير مقبول/مر».
9. 3 بعد الحادث
- تم إجراء AAR، تم تعيين RCA.
- CAPA مع المالكين/المواعيد النهائية، D + 14/D + 30 التحكم.
- كتب اللعب/التنبيهات/السياسات المحدثة.
10) الأنماط المضادة
غير واضح «من يقرر» → التأخير وتكرار الجهود.
IC جنبًا إلى جنب مع P1 - فقدان القيادة.
الاتصالات العامة دون اتفاق مع Legal/Comms.
إصدار بدون مدير الإصدار والبوابات → نمو CFR.
لا يوجد حجز دور (مرض/إجازة).
«البطولة» بدلاً من العملية: ننقذ يدويًا، لكن لا نصلح السور.
لا تنعكس الأدوار في كتالوج CMDB/Service → التصعيد المفقود.
11) تضمين الأدوات
ChatOps: команды '/who oncall' و '/declare sev1 'و '/freeze' و '/rellack 'و '/status update'.
الدليل/CMDB: تحتوي الخدمة على مالك، تحت الطلب، SLO، لوحات القيادة، كتب اللعب، النوافذ.
تنبيه كرمز: لكل صفحة مالك وكتاب لعب افتراضي.
GitOps: تنعكس حلول IC/Release في شروح الإصدار والتذاكر.
12) مقاييس نضج توزيع الأدوار
تغطية الأدوار في الأدلة: ≥ 100٪ من الخدمات الحيوية.
جيش تحرير السودان: Ack p95 ≤ 5 دقائق ؛ Page Storm p95 تحت السيطرة.
جيش تحرير السودان بعد الوفاة: مشروع ≤ 72 ح ؛ استكمال CAPA ≥ 85٪.
تغيير الحوكمة: نسبة التغييرات عالية المخاطر مع RFC/CAB ≥ 95٪.
الاتصالات: الالتزام ≥ 95٪، معدل الشكوى ↓ QoQ.
13) قوالب مصغرة
13. 1 RACI للخدمة (ملف في إعادة الشراء)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 ملف تعريف الدور (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) خلاصة القول
تكون العمليات قوية عندما تكون الأدوار شفافة وممكنة ومدمجة في الأدوات. كتالوج الأدوار، RACI، واجهات ومقاييس واضحة لكل دور تحول الحوادث والإصدارات والتغييرات في العمليات المدارة: يتم اتخاذ القرارات بسرعة، ويتم التحكم في المخاطر، ويرى المستخدمون خدمة مستقرة.