تتبع وقت التشغيل
1) لماذا مراقبة وقت التشغيل
وقت التشغيل - حصة الوقت عندما تكون الخدمة متاحة للمستخدم. هذا هو «السطر الأول» من إمكانية الرصد: لاحظ على الفور عدم إمكانية الوصول، أو التدهور على الشبكة، أو فشل DNS/TLS، أو مشاكل التوجيه أو CDN. بالنسبة للأنظمة عالية الحمل والمنظمة (fintech و iGaming)، يؤثر وقت التشغيل بشكل مباشر على الإيرادات وأداء SLA ومخاطر الغرامات.
2) المصطلحات والصيغ
توافر SLI: «SLI = (الشيكات الناجحة/جميع الشيكات) × 100٪».
SLO: توافر الهدف لكل نافذة (عادة 28-30 يومًا)، على سبيل المثال 99. 9%.
وجيش تحرير السودان: الالتزام الخارجي ؛ دائما ≤ SLO الداخلي.
MTBF/MTTR: متوسط الوقت بين الفشل/متوسط وقت التعافي.
99. 0٪ → ~ 432 دقيقة غير متوفرة
99. 9٪ → ~ 43 دقيقة
99. 99% → ~4. 3 دقائق
99. 999٪ → ~ 26 ثانية
3) ما هي الشيكات المطلوبة (الصندوق الأسود)
تم إطلاقه من نقاط خارجية (مناطق/مقدمو خدمات مختلفة) لرؤية الخدمة «من خلال عيون العميل».
1. ICMP (ping) - التواصل الأساسي/توافر العقدة. سريع، ولكن لا يعكس نجاح الأعمال.
2. اتصال TCP - الاستماع في المنفذ ؟ مفيد للسماسرة/DB/SMTP.
3. HTTP/HTTPS - رمز الحالة، والرؤوس، والحجم، وإعادة التوجيه، والوقت إلى البايت الأول.
4. TLS/الشهادات - فترة الصلاحية، السلسلة، الخوارزميات، SNI، البروتوكولات.
5. DNS - A/AAAA/CNAME، NS-health، التوزيع، DNSSEC.
6. gRPC - حالة الاتصال والموعد النهائي والبيانات الوصفية.
7. WebSocket/SSE - مصافحة، صيانة اتصال، رسالة صدى.
8. Proxy/routing/CDN - برامج عمل مختلفة، هاش ذاكرة التخزين المؤقت، متغيرات جغرافية.
9. السيناريوهات الاصطناعية للمعاملات (نقرات/نماذج): «تسجيل الدخول → البحث → الإيداع (صندوق الرمل)».
10. مراقبة نبضات القلب/الكرون - يجب أن «تنبض» الخدمة (يتم الخطاف مرة واحدة كل N دقيقة) ؛ لا إشارة - إنذار.
نصائح
حدد مهلات أقرب إلى UX الحقيقي (على سبيل المثال، TTFB ≤ 300 ms، المجموع ≤ 2 s).
تحقق من أصل المحتوى (الكلمة الرئيسية/حقل JSON) بحيث لا يعتبر «200 موافق» مع خطأ ناجحًا.
تكرار الفحوصات من خلال مقدمي الخدمات والشبكات المستقلين (متعدد القفزات ومختلف ASNs).
4) الصندوق الأبيض والخدمات الصحية
اختبارات الحياة/الاستعداد للمنسق (العمليات حية ؟ مستعد لاستقبال حركة المرور ؟).
صحة التبعية: DB، المخبأ، وسيط الأحداث، واجهات برمجة التطبيقات الخارجية (المدفوعات/KYC/AML).
تتميز بالأعلام/التحلل: في حالة المشاكل، تعطل المسارات غير الحرجة بلطف.
لا تحل العينات البيضاء محل الفحوصات الخارجية: قد تكون الخدمة «صحية من الداخل»، ولكنها غير متاحة للمستخدم بسبب DNS/TLS/الطريق.
5) الجغرافيا والتعددية الإقليمية
قم بتشغيل المواد التركيبية من مناطق المرور الرئيسية ومقدمي خدمات التبعية شبه الحرجة.
النصاب القانوني: يتم تسجيل حادث إذا فشل في مناطق ≥ N (على سبيل المثال، 2 من 3) في قطع الشذوذ المحلي.
العتبة حسب المجموعة: منفصل SLI/SLO للقطاعات المهمة (البلدان، كبار الشخصيات، شركات النقل).
6) سياسة التنبيه (الحد الأدنى للضوضاء)
Multi-regions + multi-probe: pager فقط في حالة فشل ثابت (على سبيل المثال، HTTP و TLS في وقت واحد، ≥ مناطق 2).
Debowns: N إخفاقات متتالية أو نافذة 2-3 دقائق قبل الاستدعاء.
- لام 1: تحت الطلب (خدمات الإنتاج).
- L2 الشبكة/المنصة/الأمن استنادا إلى توقيع الفشل.
- الإغلاق التلقائي: بعد الفحوصات الناجحة المستقرة M.
- ساعات/امتيازات هادئة: للخدمات الداخلية غير الحرجة - فقط التذاكر، بدون جهاز استدعاء.
7) صفحة الحالة والاتصالات
صفحات الوضع العام (العميل) والخاص (الداخلي).
الحوادث التلقائية من المواد التركيبية + الشروح اليدوية.
نماذج الرسالة: تم الكشف عنها - تم تحديدها - التأثير - الحل - ETA - تم حلها - ما بعد Mordem.
النوافذ المخطط لها: أعلن مسبقًا، فكر في الاستثناءات بشكل منفصل عن SLO.
8) النظر في التبعيات الخارجية
لكل مزود (المدفوعات، KYC، الرسائل البريدية، CDN، السحب) - الشيكات الخاصة بهم من عدة مناطق.
طرق الفشل: التحول التلقائي إلى مزود بديل باستخدام إشارة اصطناعية.
:: منفصلة للمنظمات على مستوى مقدمي الخدمات e2e-SLO متكاملة.
الاتفاق على اتفاق البيئة المستدامة مع مقدمي الخدمات (خطوط الويب الخاصة بالحالة، ودعم الأولوية).
9) لوحات القيادة والأدوات الرئيسية
خريطة العالم مع حالة الشيكات (حسب النوع: HTTP، DNS، TLS).
الجدول الزمني للحوادث مع شروح الإصدار/العلم.
P50/P95/P99 TTFB/TTL/زمن الانتقال حسب المنطقة.
التوافر حسب المجموعة (البلد/المزود/الجهاز).
MTTR/MTBF، «الدقائق الخاملة» و «الاحتراق» اتجاهات ميزانية التوافر لهذا الشهر.
أهم أسباب الإخفاقات (انتهاء صلاحية TLS، حل DNS، 5xx، المهلات).
10) عملية الحادث (سيناريو عابر)
1. يتم تشغيل تنبيه متعدد المناطق/متعدد الأنواع.
2. يؤكد الضابط المناوب، ويشغل تجميد الإفراج، ويخطر المالكين.
3. التشخيص السريع: حالة DNS/TLS/CDN، أحدث الإصدارات، جدول الأخطاء.
4. التجاوز: تغيير المسار، المحتوى/المزود، تمكين وضع التحلل.
5. الاسترداد: التحقق من أن المواد التركيبية/حركة المرور الحقيقية خضراء.
6. الاتصال على صفحة الحالة ؛ إغلاق الحادث.
7. RCA وعناصر العمل: الإصلاحات والاختبارات والتنبيهات وكتب اللعب.
11) تقارير جيش تحرير السودان/جيش تحرير السودان
التقارير الشهرية: وقت التشغيل حسب الخدمة/المنطقة، دقائق التوقف، MTTR، الأسباب.
المقارنة بجيش تحرير السودان: الأرصدة الدائنة/التعويضات، عند الاقتضاء.
الاستعراضات الفصلية: تحديث العتبات، وتوزيع المواد التركيبية، وقائمة التبعيات.
12) نماذج التفتيش (مثال)
تحقق HTTP API:- الطريقة: «GET/healthz/public» (بدون أسرار).
- المهلة: 2 ثانية، إعادة المحاولة: 1.
- النجاح: «2xx»، العنوان «X-App-Version» الحالي، JSON field' «الحالة»: «حسنًا».
- مصطلح> 14 يومًا، سلسلة صالحة، بروتوكولات TLS 1. 2 + '، SNI الصحيح.
- وقت الرد ≤ 100 ms، سجلات A/AAAA كما هو مخطط لها، لا SERVFAIL/رفضت.
- Webhook '/beat/{ service} 'كل 5 دقائق ؛ عدم وجود إشارات 2 على التوالي - تنبيه L2 (مهام خلفية/ETL).
13) قائمة التنفيذ المرجعية
- عمليات التحقق الخارجية المتعددة المناطق (HTTP/TCP/DNS/TLS/deep scripts).
- عينات الاستعداد/الحيوية البيضاء للمنسق.
- فصل المسارات الحرجة/غير الحرجة، وأعلام التحلل.
- النصاب والدين في التنبيهات والتصعيد والإغلاق التلقائي.
- صفحات الوضع العام والداخلي، نماذج الرسائل.
- فحوصات منفصلة و SLO لمقدمي الخدمات الخارجيين + فشل تلقائي.
- لوحات المعلومات: خريطة، جدول زمني، مئوية، دقائق خاملة، MTTR/MTBF.
- تقارير منتظمة عن جيش تحرير السودان/جيش تحرير السودان وتقييمات ما بعد الحوادث.
14) الأخطاء المتكررة
فقط ping/port بدون HTTP/المحتوى يكون أخضر عندما لا يكون متاحًا بالفعل.
نقطة رصد واحدة - استنتاجات إيجابية/سلبية خاطئة.
لا يوجد تحكم TLS/DNS - انقطاع مفاجئ بسبب التأخير/سوء التكوين.
ضوضاء إضافية: تنبيهات لفشل واحد من نفس المنطقة/نوع الفحص.
لا يوجد اتصال بالتغييرات - لا توجد شروح للإصدارات والأعلام في لوحات القيادة.
التبعيات غير المحسوبة - انخفض مزود الدفع، والحالة العامة «خضراء».
15) خلاصة القول
لا يقتصر تتبع وقت التشغيل على "ذروة عناوين URL. "هذا نظام من الفحوصات الاصطناعية من مناطق حقيقية، وتنبيهات معقولة بدون ضوضاء، واتصالات شفافة من خلال صفحات الحالة، وحساب التبعيات الخارجية والإبلاغ الصارم. يقلل رصد وقت التشغيل المبني بشكل صحيح من MTTR ويحمي SLAs ويحافظ على إمكانية التنبؤ بتجربة المستخدم.