تصحيح الخطأ التلقائي
1) الغرض والمبادئ
الهدف: خفض معدل وفيات الأمهات والفتيات والحيلولة دون تصاعد الحوادث عن طريق الحفاظ على هذا المعدل والإيرادات والامتثال.
المبادئ:- SLO-first: لا يُسمح بالإجراءات التلقائية إلا إذا كان هناك تهديد مؤكد لميزانية الخطأ.
- الأمن أولاً: الحد الأدنى من نصف قطر الانفجار، والحدود الصريحة والجداول الزمنية.
- يمكن تفسيره حسب التصميم: كل إجراء قابل للشرح وقابل للتدقيق.
- جاهز للتراجع: أي خطوة مصحوبة بمعايير العودة.
- Human-in-the-loop حيث يكون الخطر مرتفعًا: تغييرات P1-critical - من خلال التحكم المزدوج أو تأكيد IC/تحت الطلب (ما لم تحدد السياسة خلاف ذلك).
2) الشروط
العلاج التلقائي: رد فعل برنامجي على حدث (تنبيه/شذوذ) دون تدخل بشري.
حواجز الحماية: سياسة التقييد (العتبة والمدة وعدد المحاولات ومنطقة التأثير).
Runbook-Action: atomic operation with pre/post checks and relack.
محرك القرار - خدمة ترسم الحدث للسياسات وتطلق الإجراءات.
3) بنية الحلول
1. الإشارات: SLO/معدل الحرق، KRI، المواد التركيبية، RUM، الصحة العميقة.
2. ارتباط السياق: الإصدارات، أعلام الميزات، العمل المخطط، مقدمي الخدمات المعالين.
3. محرك القرار: القواعد/السياسات (السياسة كرمز)، تقييم الأثر والمخاطر، اختيار السيناريوهات.
4. Execution: Orchestrator of runbook activities (idempotency, retrai with jitter).
5. التحكم: المؤكدات المسبقة، ما بعد التحقق، صندوق الوقت، التراجع.
6. مراجعة الحسابات وقابلية الرصد: تتبع الأنشطة، ومقاييس النجاح، والسجل (WORM/غير قابل للتغيير).
7. الاتصال: صفحة الحالة (عبر Comms Lead)، غرفة الفيديو، ماكرو للدعم.
4) السياسة كرمز
أمثلة على الظروف (pseudo-Rego/logic): فشل PSP:- 'أسمح إذا burn_rate (المدفوعات. auth)> fast & impact & impact> عتبة & psp_alt. صحية & within_limits
- 'allow if p99 (bet_settlement)> 3x & & queue_lag>limit & feature («replay _ center»). '
- 'allow if consumer_lag>target & cost_budget. حسنا & region_capacity. متاح "
- 'allow if export_spike & no_ticket & data_class=PII; action = block + notify (compliance)'
تحتوي كل سياسة على: الشرط، الإجراء، الحد (النطاق/الوقت/التردد)، معايير النجاح، التراجع.
5) دليل الإجراءات الآمنة (إجراءات الدليل الذري)
المدفوعات: تحويل حركة المرور إلى PSP/بنك بديل ؛ وتغيير أولويات توجيه رسوم × الصحية × التحويل ؛ مكّن 3DS المبسط رفع حدود إعادة الدفع مع النبض.
الرهان/اللعب: مقياس العمال ؛ تمكين إحماء المخبأ مؤقتًا لتعطيل الميزات غير الحرجة (الرسوم المتحركة، التغذية الثانوية) ؛ تمكين غرفة الانتظار/قائمة الانتظار الصفحة.
البنية التحتية: إزالة الحالات المتدهورة (كاشف خارجي)، وإجلاء حركة المرور إلى المنطقة/المنطقة المجاورة ؛ زيادة تجمع/حصة إعادة تشغيل العمال بفحوصات الوبر.
البيانات/قوائم الانتظار: إعادة توزيع الأطراف ؛ ورفع المستهلكين إلى الحد الأقصى ؛ تبديل قراءة حركة المرور إلى نسخة طبق الأصل صحية ؛ مكّن عينات الطريق التكيفية.
الأمن/الامتثال: منع صادرات مؤشر الاستثمار الدولي مؤقتا بدون تذكرة ؛ تعزيز حدود إخراج السرعة تمكن من التحكم المزدوج في العمليات الحساسة.
طبقة الفاصلة: حالة المسودة التلقائية + فتحات التحديث لـ Comms Lead ؛ إخطار الشركاء عندما يتحلل PSP.
6) المصادقة المسبقة واللاحقة
قبل:- تأكد من أن المشكلة حقيقية وطازجة (نوافذ N-of-M ؛ لا صمت/عمل مخطط له).
- التحقق من أن الإجراء مسموح به بموجب السياسة وأن هناك ميزانية للموارد.
- التكلفة التقديرية (FinOps) والقيود على الامتثال.
- تأكيد تخفيض معدل الحرق/المقاييس ؛ وتسجيل النتيجة ؛ حدد موعدًا للتراجع التلقائي وفقًا للشروط.
7) التراجع и «فتحة الهروب»
العائد التلقائي عند تثبيت المقاييس ومن خلال إجراءات الحد الأقصى TTL.
تراجع عن زر IC/تحت الطلب في غرفة var.
كسر الزجاج للوصول في حالات الطوارئ فقط ؛ مطلوب بعد مراجعة الحسابات.
8) الإدماج مع التنبيه والحوادث
يتم إرفاق أي إجراء تلقائي ببطاقة الحادث: من/ماذا/متى/لماذا، والنتيجة، والروابط إلى الرسوم البيانية.
جهاز النداء مكتوم للنسخ المكررة، ولكن ليس للإصلاحات التلقائية الفاشلة (التصعيد).
يتم تحديث صفحة الحالة عبر Comms Lead من النموذج.
9) تصميم السلامة والامتثال
أقل الامتيازات للمنسق ؛ الأدوار الفردية لكل عمل/مجال.
SoD والتحكم المزدوج للمخاطر العالية: توجيه PSP، حدود المكافأة، تصدير PII.
مراجعة الإدارة الدودية للحيوانات/غير القابلة للتغيير لجميع الحلول التلقائية، بما في ذلك المدخلات ونسخ السياسات.
نظافة PII: بدون معرفات شخصية في الملصقات وسجلات الحركة.
10) إمكانية رصد الحلقات التلقائية
المقاييس: معدل نجاح الإجراءات، وقت رد الفعل، تراجع٪، وفورات MTTR، والتأثيرات على SLO.
الآثار: آثار من طرف إلى طرف للإشارة → اتخاذ قرار → العمل → التأثير.
الجذوع: منظمة، مع policy_id وإصدارات وفحوصات مسبقة/بريد.
لوحات المعلومات: Exec (تأثير الإيرادات/SLO)، Ops (مصفوفة العمل × المجالات)، FinOps (تكلفة المقاييس التلقائية).
11) سيناريوهات المثال (iGaming)
11. 1 تدهور PSP (TR/EU)
الإشارة: النجاح في PSP-1 ↓ بنسبة 25٪ في 10 دقائق، والتغطية> 30٪ من المعاملات.
الإجراءات: إعادة توزيع 40 في المائة من حركة المرور على PSP-2/3 ؛ مكّن 3DS المبسط من إعادة تشغيل طلبات Bank X باستخدام jitter.
الحدود: لا تزيد عن 60 في المائة من مجموع حركة المرور لكل PSP بديل ؛ TTL 45 دقيقة.
التراجع: في تطبيع معدل النجاح ≥ الهدف لمدة 15 دقيقة.
11. 2 ارتفاع p99 في حصص الاستقرار
الإشارة: p99 "bet→settle"> 3 × القاعدة + تأخر المستهلك> العتبة.
الإجراءات: تخفيض عدد العمال قبل الحد الأقصى ؛ إحماء معامل التخزين المؤقت ؛ إيقاف مؤقت «إعادة التاريخ».
التراجع: بعد مساحة الرأس> X و p99 عادة 20 دقيقة.
11. 3 نسخة طبق الأصل من قاعدة البيانات متخلفة
الإشارة: تكرار تأخر> N ثانية، نمو قفل الانتظار.
الإجراءات: تحويل حركة المرور إلى نسخة طبق الأصل صحية ؛ تمكين عمليات الكتابة ذات الأولوية المنخفضة.
التراجع: بعد تأخر التطبيع وأخطاء القفل.
11. 4 ارتفاع تصدير PII
الإشارة: معدل التصدير> خط الأساس × K، بدون تذاكر.
الإجراءات: كتلة التصدير، الإشعار بالامتثال، الرقابة المزدوجة الممكنة.
التراجع: بعد تأكيد الطلبات وإغلاق الشذوذ.
12) KPI и KRI
MTTR↓ للحوادث التي يعمل فيها الإصلاح التلقائي.
TTD→Action: الوقت من الكشف إلى الفعل.
معدل نجاح الإجراءات ومعدل التراجع (منخفض - جيد، إن لم يكن بسبب إيجابيات خاطئة).
معدل الإجراءات الخاطئة (الإجراءات التي ليس لها تأثير أو لها تأثير سلبي).
تم حفظ تأثير SLO.
Pager fatigue↓ (عدد أقل من أجهزة الاستدعاء اليدوية مع نفس/أفضل SLOs).
13) خارطة طريق التنفيذ (8-12 أسبوعًا)
نيد. 1-2: اختيار 3-5 سيناريوهات عالية عائد الاستثمار (PSP-feilover، مقياس تلقائي حسب التأخر، تحلل الميزة) ؛ يصف السياسات/الحدود/التراجع.
نيد. 3-4: تنفيذ نظام العمل، والأسرار والأدوار، والتكامل مع منصة الحوادث ؛ إضافة إمكانية الملاحظة ومراجعة الحسابات.
نيد. 5-6: تجريبي في وضع «الظل» (محاكاة فقط) → تقدير تأثير A/B ؛ ثم تضمين المنتج بتغطية منخفضة.
نيد. 7-8: توسيع دليل النصوص (قاعدة بيانات/ذاكرة التخزين المؤقت/قوائم الانتظار/المقدمة)، وربط صفحة الحالة و Comms.
نيد. 9-10: إضافة قواعد حدود FinOps (التكلفة/SLI)، وتنفيذ التحكم المزدوج للمخاطر العالية.
نيد. 11-12: تعاليم الطاولة/الفوضى، وتنقيح KPI/KRI، ونشر المبادئ التوجيهية والتدريب عند الطلب.
14) القطع الأثرية والأنماط
سياسة الإصلاح التلقائي: الحالة، الإجراء، الحدود، TTL، التراجع، المالك، فئة المخاطر.
مواصفات Runbook-Action: الشروط المسبقة والخطوات والفحوصات والأخطاء والمراقبة والمنطق التراجعي.
التحكم في التغيير: من يمكنه حكم السياسات ومراجعات العلاقات العامة والاختبارات والاختبار والإصدار.
حزمة الأدلة: سجلات تأثير SLO/مسارات/مقاييس، تقرير لتشريح الجثة/التدقيق.
15) أنتيباترن
«علاج الأعراض» دون التحقق من السبب و SLO → الخفقان.
الإجراءات دون التراجع و TTL → التدهور المجمد.
نصوص عالمية بدون حواجز حماية → حوادث متتالية.
الافتقار إلى مراجعة الحسابات ووضع السياسات.
تجاهل التكلفة (المقياس الذاتي بدون حد) والامتثال (صادرات مؤشر الاستثمار الدولي).
الاستقلالية الكاملة بدون الإنسان في الحلقة في مخاطر P1.
المجموع
تصحيح الخطأ التلقائي هو حلقة مُدارة: يشير SLO إلى سياسات → مع حواجز الحماية → إجراءات الدليل الآمن مع التراجع → إمكانية الملاحظة وتدقيق التدريب → الحوادث. يقلل هذا النهج بشكل ملموس من MTTR، ويحافظ على الإيرادات في البستوني، ويزيل الروتين من الطلب بينما يظل متوافقًا مع متطلبات السلامة والتنظيم.