GH GambleHub

مقاييس الحوادث

1) لماذا قياس الحوادث

مقاييس الحوادث تحول الأحداث الفوضوية إلى عملية يمكن التحكم فيها: المساعدة في تقليل أوقات الاستجابة والاسترداد، وتقليل تكرار السبب، وإثبات تنفيذ SLO/العقد، وإيجاد نقاط الأتمتة. تغطي مجموعة جيدة من المقاييس الدورة بأكملها: الكشف → التصنيف → التصعيد → إجراءات التخفيف → الاسترداد → تحليل CAPA →.


2) التعاريف والصيغ الأساسية

فترات الحدث

MTTD (Mean Time To Detect) = متوسط الوقت من T0 (بداية التأثير الفعلي) إلى الإشارة/الاكتشاف الأول.
MTTA (متوسط الوقت للاعتراف) = متوسط الوقت من الإشارة الأولى إلى الاتصال عند الطلب.
MTTM (متوسط الوقت للتخفيف) = متوسط الوقت لإحداث تخفيض أقل من عتبة SLO (غالبًا = وقت حل/تدهور UX).
MTTR (متوسط وقت الاسترداد) = متوسط الوقت لإكمال استرداد مؤشرات الاسترداد المستهدفة.
MTBF (متوسط الوقت بين الإخفاقات) = متوسط الفترة الفاصلة بين الحوادث ذات الصلة.

أوقات التشغيل

حان الوقت للإعلان - من T0 إلى الإعلان الرسمي عن مستوى SEV/الحادث.
الوقت إلى الاتصالات - من الإعلان إلى أول تحديث عام/داخلي لـ SLA.
الوقت في الدولة - المدة في كل مرحلة (الفرز/الدياج/الإصلاح/التحقق).

التردد والكسر

عدد الحوادث - عدد الحوادث لكل فترة.
معدل الحوادث - عند 1k/10k/100k المعاملات أو الطلبات الناجحة (التطبيع).
SEV Mix - التوزيع حسب الشدة (SEV-0... SEV-3).
عدد/معدل خرق جيش تحرير السودان - عدد/حصة انتهاكات جيش تحرير السودان الخارجي.
معدل فشل التغيير -% من الحوادث الناجمة عن التغيرات (الإطلاقات/التكوينات/الهجرات).

جودة الإشارات والعمليات

% صفحات قابلة للتنفيذ - نسبة الصفحات التي أدت إلى إجراءات دليل ذات مغزى.
المعدل الإيجابي الخاطئ (الصفحات) - نسبة الإيجابيات الخاطئة.
التغطية بالكشف - نسبة الحوادث المكتشفة عن طريق التشغيل الآلي (وليس العملاء/الدعم).
معدل إعادة الفتح - نسبة الحوادث المتكررة التي لها نفس السبب الجذري ≤90 أيام.
CAPA الانتهاء - تم إغلاق النسبة المئوية من الإجراءات التصحيحية/الوقائية في الوقت المحدد.
Comms SLA الالتزام - نسبة التحديثات المنشورة بالتردد المطلوب.


3) خريطة المقاييس حسب مرحلة الحادث

المرحلةالمقاييس الرئيسيةسؤال
الكشفMTTD، تغطية الكشف، مزيج المصدر (المراقبة مقابل المستخدمين)ما مدى سرعة ومن يحدد المشكلة ؟
رد فعلMTTA، حان وقت الإعلان، Page-to-Ack٪، زمن التصعيدما مدى سرعة تعبئة الفريق وتعيين SEVs ؟
التخفيفMTTM، النجاح البديل٪، تجميد التغييرما مدى سرعة تقليل التأثير إلى مستوى آمن ؟
الترميمMTTR، SLO Burn توقف الوقت، نافذة المخاطر المتبقيةمتى عادت الخدمة إلى طبيعتها بالكامل ؟
الاتصالاتحان الوقت للاتصالات والالتزام بنظام SLA والمشاعر/الشكاوىما مدى جودة تواصلنا في الوقت المحدد ؟
التدريبمهلة تشريح الجثة، إكمال/تأخر CAPA، معدل إعادة الفتحهل نتعلم ونغلق حلقة التحسينات ؟

4) التطبيع والتجزئة

تطبيع عدادات الحجم (حركة المرور، النجاح، المستخدمين النشطين).
القطاع حسب: المنطقة/المستأجر، المزود (PSP/KYC/CDN)، نوع التغيير (code/config/infra)، وقت النهار (النهار/الليل)، مصدر الكشف (الاصطناعي/RUM/infra/support).
تعتبر مؤسسات الأعمال المستدامة (نجاح المدفوعات والتسجيلات وتجديد الموارد) مهمة للأعمال - ربط مقاييس الحوادث بتدهورها.


5) أهداف العتبة (معالم، تكيف مع المجال)

MTTD: ≤ 5 دقائق لـ Tier-0، ≤ 10-15 دقيقة لـ Tier-1.
MTTA: ≤ 5 دقائق (24/7)، ≤ 10 دقائق (متابعة الشمس).
MTTM: ≤ 15 دقيقة (المستوى 0)، ≤ 30-60 دقيقة (المستوى 1).
MTTR: ≤ 60 دقيقة (المستوى 0)، ≤ 4 ساعة (المستوى 1).
تغطية الكشف: ≥ 85٪ أتمتة.
النسبة المئوية للصفحات القابلة للتنفيذ: ≥ 80-90٪ ؛ صفحات FP: ≤ 5٪.
معدل إعادة الفتح (90д): ≤ 5-10٪.
إكمال CAPA (في الوقت المحدد): ≥ 85٪.


6) إسناد أسباب التغييرات وأثرها

تحديد سبب رئيسي (Code/Config/Infra/Provider/Security/Data/Capacity) وتشغيل (معرف الإصدار، تغيير التهيئة، الهجرة، العامل الخارجي) لكل حادث.
حافظ على MTTR/Count المرتبط بالتغيير - مقدار الإصدارات والتكوينات المساهمة (قاعدة لسياسات البوابة/الكناري).
بشكل منفصل، ضع في اعتبارك الحوادث التي يسببها المزود (PSP/KYC/CDN/Cloud) لإدارة الطرق والعقود.


7) الاتصالات وتأثير العملاء

حان الوقت لتحديث وتحديث الإيقاع العام الأول (على سبيل المثال، كل 15/30 دقيقة).
معدل الشكوى - التذاكر/الشكاوى بشأن 1 الحادث، الاتجاه.
دقة الحالة - حصة التحديثات العامة دون تراجعات.
NPS بعد الحادث (حسب العميل الرئيسي) - دفعة قصيرة بعد SEV-1/0.


8) تنبيه مقاييس الجودة حول الحوادث

Page Storm Index - عدد الصفحات/الساعة لكل ساعة عند الطلب أثناء الحادث (متوسط/p95).
كفاءة التخلص - نسبة المكررات المكبوتة.
معدل تأكيد النصاب - نسبة الحوادث التي بدأ فيها نصاب التحقيقات (≥2 مصادر مستقلة).
Shadow→Canary→Prod تحويل القواعد الجديدة (الإنذار بالرمز).


9) لوحات القيادة (المجموعة الدنيا)

1. المدير التنفيذي (28 يوما): عدد الحوادث، توزيع سيف، حركة تحرير رواندا/حركة تحرير مورو، فواصل جيش تحرير السودان، إعادة فتح، كابا.
2. عمليات SRE: MTTD/MTTA по часам/сменам، Page Storm، Actionable٪، تغطية الكشف، وقت الإعلان/الاتصالات.
3. تأثير التغيير: حصة حوادث الإطلاق/التهيئة، MTTR لحوادث التغيير، نوافذ الصيانة مقابل الحوادث.
4. مقدمو الخدمات: الحوادث حسب المزود، ووقت التدهور، ومفاتيح تبديل الطرق، واتفاقات الخدمات التعاقدية.
5. خريطة الحرارة حسب الخدمة/المنطقة: الحوادث و MTTR لكل 1 ألف معاملة.

ادمج رسومات SLI/SLO مع شروح الإصدار وعلامات SEV.


10) مخطط بيانات الحوادث (موصى به)

حقول الحد الأدنى للبطاقة/الجدول:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) أمثلة الحساب (فكرة SQL)

MTTR بمرور الوقت (متوسط):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
تغطية الكشف:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
معدل فشل التغيير (في 28 يومًا):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) ربط ميزانيات SLO والخطأ

سجل دقائق حرق SLO لكل حادث - هذا هو «الوزن» الرئيسي للحدث.
إعطاء الأولوية لـ CAPA من خلال الحرق الكلي ووزن SEV بدلاً من عدد الحوادث.
قم بتجميع حرق له تأثير مالي (على سبيل المثال: دولار/دقيقة من وقت التوقف أو دولار/صفقة مفقودة).


13) مقاييس مستوى البرنامج

وقت ما بعد الوفاة: متوسط من إغلاق الحادث إلى نشر التقرير.
اكتمال الأدلة: مشاركة التقارير مع الجدول الزمني ومخططات SLI والسجلات والروابط إلى العلاقات العامة/الاتصالات.
درجة النظافة التنبيهية: مؤشر مركب حسب الإجراءات/FP/dedup/النصاب القانوني.
عيوب التسليم: نسبة التحولات التي يفقد فيها سياق الحوادث النشطة.
تغطية التدريب: محاكاة النسبة المئوية عند الطلب في الربع.


14) قائمة مرجعية لتنفيذ المقاييس

  • يتم تحديد الطوابع الزمنية الموحدة (UTC) وعقد الأحداث.
  • SEV، الجذر السبب التصنيف ومصادر الكشف المعتمدة.
  • يتم تطبيع المقاييس إلى الحجم (حركة المرور/النجاح).
  • لوحات القيادة الجاهزة 3: تنفيذية، عمليات، تأثير التغيير.
  • تنبيه كرمز: لكل قاعدة صفحة كتاب لعب ومالك.
  • تشريح جثة جيش تحرير السودان (على سبيل المثال مشروع ≤72ch، والعبد ≤5 النهائي. أيام).
  • يتم تتبع CAPAs بأثر KPIs وتواريخ D + 14/D + 30.
  • مراجعة الحوادث الأسبوعية: الاتجاهات، أهم الأسباب، حالة CAPA.

15) الأنماط المضادة

النظر فقط في MTTR بدون MTTD/MTTA/MTTM → فقدان القدرة على التحكم في المراحل المبكرة.
عدم تطبيع حجم الخدمات الكبيرة → «يبدو» أسوأ.
غير منتظم SEV → حوادث متباينة.
الافتقار إلى الأدلة → الجدل بدلاً من التحسينات.
التركيز على عدد الحوادث بدلاً من تأثير الحرق/SLO.
تجاهل Reopen و CAPA → الانتكاسات الأبدية.
مقاييس في Excel بدون تحميل تلقائي من Telemetry/ITSM.


16) قوالب مصغرة

بطاقة الحادث (abbr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

التقرير التنفيذي (28 يوما، الخطوط الرئيسية)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) خارطة طريق (4-6 أسابيع)

1. نيد. معيار 1-Timestamp/field، SEV/قاموس الأسباب الأساسية عرض الحادث.
2. نيد. 2: حسابات MTTD/MTTA/MTTM/MTTR والتطبيع ولوحة القيادة SEV.
3. نيد. 3: حزمة مع الإصدارات/التكوينات، تغطية الكشف والنظافة التنبيهية.
4. نيد. 4: تقرير تنفيذي، تشريح جثة جيش تحرير السودان، تعقب كابا.
5. نيد. 5-6: تقارير مقدمي الخدمات، والنموذج المالي burn→$، والأهداف الفصلية، والاستعراض الفصلي للحوادث.


18) خلاصة القول

مقاييس الحوادث ليست مجرد أرقام، ولكنها لوحة مصورة للموثوقية التشغيلية. عندما تقيس التدفق بأكمله (من الاكتشاف إلى CAPA)، وتطبيع المقاييس، وربطها بـ SLOs والتغييرات، ومراجعتها بانتظام، تقلل المنظمة بشكل متوقع من وقت الاستجابة والتكلفة وتكرار الحوادث - ويرى المستخدمون خدمة مستقرة.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.