لوحة التحكم المركزية
1) الغرض والمبادئ
لوحة التحكم المركزية (يشار إليها فيما بعد باسم CDU) هي نافذة واحدة لاتخاذ القرارات في العمليات. يقوم بتجميع الإشارات من القياس عن بعد، ITSM، CI/CD، كتالوج الخدمة، تقويم العمل ومقدمي الخدمة، وتحويلها إلى أدوات قابلة للتنفيذ.
المبادئ:- SLO-first: أعلى - استهداف SLO ومعدل الحرق حسب Tier-0/1.
- نقرة واحدة على الحركة: من الأداة - إلى كتاب اللعب/كتاب التشغيل أو التذكرة.
- القاموس الموحد: نفس SEV والحالات والألوان والعتبات.
- شروح الأحداث: الإصدارات/التكوينات/النوافذ على جميع الرسوم البيانية.
- الأدوار والأذونات: الآراء الشخصية (عند الطلب، IC، الإدارة).
- ضوضاء منخفضة - مصدر النصاب والتفريغ والنوافذ.
2) الأدوار والسيناريوهات الرئيسية
عند الطلب (P1/P2): افهم بسرعة «ما هو قيد التشغيل» وافتح دليل اللعب (انقر ≤1).
IC: أعلن SEV، وابدأ وضع غرفة الحرب، وتحكم في إيقاع تحديثات com.
مدير الإصدار: انظر البوابات، تقدم الكناري، الاستعداد للتراجع.
مالك الخدمة/المنتج: SLI الأعمال (نجاح المدفوعات/التسجيلات)، تأثير الميزات.
SRE/Platform: السعة، المقياس الذاتي، الشذوذ، الاستعداد DR.
FinOps: $/الوحدة، الإنفاق الزائد، تنبيهات الميزانية.
الأمن/القانوني: الوضع، والشهادات الرئيسية، ونوافذ التناوب، ووصلات مراجعة WORM.
3) بنية معلومات CDA
الرف العلوي (لوحة البطل):- SLO по Tier-0/1 (التوافر/زمن الوصول/النجاح) с معدل الحرق 2- окна.
- حالة SEV: الحوادث النشطة والجدول الزمني لها.
- حالة الإصدار: كناري/أزرق أخضر، بوابات نشطة.
- مقدمو إشارات المرور (PSP/KYC/CDN).
- نوافذ الصيانة (الآن/24 ساعة)، بطاقة القمع.
- السعة: زمن CPU/RAM/IO/queue-depth/p95 مع التوقعات.
- FinOps: $/1k txn، الإنفاق اليومي مقابل الميزانية، شذوذ حجم السجل.
- DataOps: نضارة العروض، خطوط أنابيب SLA، أخطاء DQ.
- الأمن: مصطلح الشهادة، التناوب السري، نقاط الضعف الحرجة (العمر/جيش تحرير السودان).
- الارتباطات «release ↔ SLO», «provider ↔ failor/latency».
- الروابط السريعة: السجلات، المسارات، التذاكر، كتب اللعب، SOP، مصفوفة التصعيد.
4) الودجات (مجموعة مرجعية)
1. SLO & Burn-rate
يوضح SLI الحالي والهدف والخطأ في استهلاك الميزانية (1 ساعة/6 ساعة).
العمل: فتح دليل تدهور الخدمة.
2. الحوادث (لوحة SEV)
نشط/حديث، إعلان/Comms Timers، IC/Comms Roles.
الإجراء: غرفة حرب مفتوحة، نموذج تحديث، قائمة مرجعية لـ IC.
3. الإصدارات/التكوينات
كناري 1→5→25٪، الأعلام، التراجع (زر/رابط SOP).
الشروح: النسخة، الالتزامات، المؤلف.
4. نوافذ الصيانة
الخدمات/المناطق الحالية/القادمة المتأثرة ؛ قناع القمع.
الإجراء: تنسيق الإخطارات، وتمكين حراس SLO.
5. القدرة/المقياس الذاتي
توقعات الاستهلاك (Naive/AR)، بطاقة ساخنة، حمام سباحة دافئ.
الإجراء: طلب الحصص/قواعد الجدول (العلاقات العامة لسياسة إعادة الشراء).
6. FinOps
/ الوحدة، أعلى الاستفسارات/السجلات «باهظة الثمن»، الحرق اليومي مقابل الميزانية.
الإجراء: فتح التقرير والتوصية (أخذ العينات من السجلات والمحفوظات).
7. مقدمو الخدمات
حالة SLA/PSP/KYC/CDN، أوزان الطريق، الاستعداد القابل للطي.
العمل: تبديل الوزن، نموذج الاتصال للشركاء.
8. الأمن
الشهادات (≤30d)، التأخير في التناوب، نقاط الضعف (العمر)، الأحداث المشبوهة.
العمل: فتح دليل/تذكرة IR.
9. عمليات البيانات
نضارة النوافذ، تخطي النسبة المئوية، فشل خط الأنابيب، DLQ.
الإجراء: ردم/الحجر الصحي/التراجع عن التحول.
5) الدول/الألوان/العتبات (مرجع)
الأخضر: SLI داخل الهدف، معدل الحرق أقل من 1 ×.
العنبر: SLI يتحلل، معدل الحرق 1-2 ×، نمو p95، ولكن هناك حل بديل.
الأحمر: خرق أو احتراق تنبؤي <1 ساعة ؛ SEV-1/0 مفتوحة.
Grey: suppression, no telemetry (source error).
6) الشروح والعلاقات المتبادلة
يتم عرض حالات الإصدار/التهيئة/النافذة/المزود على رسوم SLO البيانية.
انقر فوق علامة diff →، المؤلف، البوابات، زر Rollback/Folback/SOP.
في الحادث، تم بناء الجدول الزمني من شروح وإجراءات ChatOps.
7) مصادر البيانات والتحقق
القياس عن بعد: المقاييس/المسارات/السجلات مع trace_id.
ITSM: الحوادث/القضايا/التغييرات (Statuses/SLAs).
CI/CD: الإطلاقات والتوقيعات والتحف والاختبارات.
دليل الخدمات/CMDB: المالكون، SLO، التبعيات.
التقويم: نوافذ الصيانة.
مقدمو الخدمة: تأكيدات يدوية لحالة واجهة برمجة التطبيقات + (الهبوط في عرض منفصل).
FinOps: علامات الفوترة/الموارد، أحجام السجلات، الخروج.
مراقبة الجودة: النصاب القانوني، والمجسات المكررة، ونضارة جيش تحرير السودان، وتنبيهات للمصادر «الغبية».
8) أوضاع العرض
غرفة الحرب: تخطيط ثابت SLO/حوادث/إصدارات/Comms-timer.
المدير التنفيذي (28 يومًا): اتجاهات مزيج MTTR/MTTD/SEV، $/وحدة، التزام SLO.
تحت الطلب: لوحة «ليلية» مدمجة (الوضع المظلم، أعداد كبيرة).
متعدد المستأجرين/المنطقة: مرشحات الخدمات/المناطق/المستأجرين ؛ ().
9) الملاحة والإجراءات (بنقرة واحدة)
الأزرار: «/إعلان sev1 »، «/تجميد»، «/التراجع »، «/تحديث الحالة»، «كتاب اللعب المفتوح».
Drill- ดาวn: SLO → رسم بياني → سجلات/مسارات مع مرشحات مسبقة التعبئة (trace_id, release_id).
المشاركة: لقطة للوحات في صفحة تذكرة/حالة.
10) الأمن والوصول والتدقيق
SSO/OIDC + RBAC/ABAC: الأدوار والنطاقات (عرض/إجراء).
JIT/JEA: الإجراء «الخطير» متاح فقط بزيادة مؤقتة.
التدقيق غير قابل للتغيير: من ضغط على ماذا، وما هي الطلبات/الأوامر المتبقية.
الأسرار: لم يتم عرضها، فقط روابط للمدير السري.
11) مقاييس النضج CDU
قابلية العمل ≥ 90٪: تؤدي النقرات إلى الإجراءات، وليس الرسوم البيانية فقط.
من الوقت إلى العمل الأول ≤ 2 دقيقة من اتفاقية مكافحة التصحر أثناء SEV-1/0.
نسبة الحوادث التي كان فيها الاتحاد الديمقراطي المسيحي «مصدرًا للحقيقة» ≥ 95٪.
نضارة الأدوات:٪ مع البيانات «5 دقائق طازجة».
التغطية:٪ من الخدمات الحيوية ببطاقات SLO وشروح الإصدار.
النقاط الصفرية: مصادر صامتة للأسبوع = 0.
12) القوائم المرجعية
تصميم
- يتم وصف الأدوار والنصوص (P1/P2/IC/Exec/FinOps/Security/DataOps).
- قاموس اللون/SEV/العتبة متسق.
- مصادر البيانات مع النصاب والنضارة SLAs.
- غرفة الحرب/تحت الطلب/التخطيطات التنفيذية.
- ChatOps/ITSM/CI/CD/CMDB Integration Plan.
عملية
- بطانة تمرير Widgets (الحقول المطلوبة، المالك، العتبات).
- مرة واحدة في الأسبوع - مراجعة التصعيد/التنبيه مع تحسينات DPC.
- تم إرفاق لقطات الحادث بـ AAR/RCA.
- الوضع المظلم/التحديد المسبق لواجب الهاتف المحمول.
- اختبارات المصادر «الصامتة» وصحة الشروح.
13) قوالب (أفكار)
13. 1 تعريف Widget (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 بطاقة الحادث (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 الاتصال بالإصدار
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 أداة FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) الأنماط المضادة
«جدار الرسوم البيانية» بدون أفعال وكتب لعب.
ألوان/عتبات مختلفة على الأوامر → الارتباك في SEV.
لا توجد شروح للإفراج/النوافذ - ارتباط سبب معقد.
المصادر المكررة بدون النصاب هي صفحة/ضوضاء خاطئة.
أسرار/مفاتيح على اللوحة - خطر التسرب.
العرض البطيء (الطلبات/التجميعات غير مخبأة) - لا يتم فتح الألواح في المعركة.
15) خارطة طريق التنفيذ (4-8 أسابيع)
1. نيد. 1: جمع المتطلبات حسب الأدوار، قاموس الحالات/الألوان، تخطيطات ثلاثة أوضاع.
2. نيد. 2: SLO/Incidences/Releases/Windows connection، شروح، إجراءات ChatOps.
3. نيد. 3: إضافة FinOps/Capacity/Providers/DataOps/Security، نصاب المصادر.
4. نيد. 4: وضع غرفة الحرب، لقطات في ITSM، طيار على Tier-0.
5. نيد. 5-6: تحسين الأداء، التحديد المسبق للهاتف المحمول/تحت الطلب، وصفة الأداة.
6. نيد. 7-8: مقاييس النضج، الاستعراض الأسبوعي، التوصيات التلقائية (سجلات أخذ العينات، الحصص، الفولباك).
16) خلاصة القول
CDUs ليست «رسوم بيانية جميلة»، ولكنها مجموعة من الحلول: SLO ومعدل الحرق من أعلى، الحوادث/الإصدارات/النوافذ في سياق واحد، الإجراءات الفورية عبر ChatOps و SOP، المصادر والشروح المؤكدة. تقلل لوحة القيادة هذه من MTTA/MTTR، وتبسط الاتصالات، وتدعم FinOps وتجعل التشغيل شفافًا ويمكن التنبؤ به.