تقارير Uptime ومراجعات SLA
1) لماذا نحتاج إلى عملية إبلاغ رسمية عن وقت التشغيل ؟
ثقة العملاء وشفافية العقد - تقنية قياس واحدة، حسابات قابلة للتكرار.
SLO وإدارة الميزانية الخاطئة - ربط حقيقة التوافر بالإصدارات والحوادث.
قروض SLA الصحيحة هي صيغ موضوعية، مدفوعات/تعويضات يمكن التنبؤ بها.
الاستدامة القانونية - قاعدة الأدلة، التدقيق المستقل، عقد قانوني.
2) الشروط والحدود
توافر - النسبة المئوية للتحقق/المعاملات الناجحة لكل فترة.
SLO - الهدف الداخلي (على سبيل المثال 99. 95 في المائة في 28 يوما).
اتفاق جنوب السودان - الالتزام الخارجي (على سبيل المثال 99. 9 ٪/شهر + قروض الخدمة).
نافذة القياس - الشهر التقويمي (SLA) ونافذة الدوران (SLO).
النطاق - ما هي المكونات المدرجة في الحساب (الحافة، واجهة برمجة التطبيقات، والمدفوعات) والتي ليست (بوابة إدارية، غير داعمة).
3) مصادر الحقيقة (ومتى كان المسؤول)
1. Synthetics (blackbox/بدون رأس) هو SLI الأساسي لـ «إمكانية الوصول إلى عين المستخدم».
2. الجذوع/المقاييس - تأكيد حجم وطبيعة الفشل.
3. الأحداث التجارية هي «نجاح المعاملات» (على سبيل المثال، الدفع المأذون به).
4. صفحة الحالة - الاتصال العام ؛ في ضوء الوقائع رقم 1-3.
في حالة التناقضات: تعطى الأولوية للمواد التركيبية مع النصاب الصحيح من المناطق ≥2.
4) منهجية حساب التوافر
4. 1 صيغة أساسية
Availability = Успешные проверки / Все проверки
ErrorBudget = 1 − SLO
Downtime(m) = (1 − Availability) × Длительность_периода(в мин)
4. 2 النصاب المتعدد الأقاليم
يتم احتساب الحادث إذا سجلت المناطق المستقلة ≥N/ASNs في نفس الوقت فشلًا.
الموصى به: N = 2 من 3 (EU/NA/APAC).
4. 3 أنواع SLI
HTTP SLI: код 2xx/3xx، الكمون ≤ T.
DNS/TLS SLI: NXDOMAIN/SERVFAIL/انتهاء الصلاحية.
أعمال SLI: المعاملات الناجحة/جميع المحاولات (باستثناء إخفاقات العملاء).
4. 4 استثناءات (موثقة)
تم الإعلان عن نوافذ الصيانة المقررة مسبقًا وساعات N ومراقبة.
القوة القاهرة من جيش تحرير السودان (على سبيل المثال، مقدم الكوارث التاسع) - فقط إذا كان هناك دليل وإشعار عام.
أخطاء/قيود العملاء (تجاوزت الحصة 4xx).
5) سياسة صيانة النوافذ
الفترات الزمنية المتفق عليها في العقد (مثلاً الأحد 02: 00-04: 00 بالتوقيت العالمي المنسق + 0).
علامات «الصيانة = الحقيقية» في التنبيه/الألواح → الاستبعاد من SLI.
عتبة الإخطار: 5 أيام عمل على الأقل (أو كما في العقد).
خارج النافذة - يتم النظر في تأثير SLA.
6) قضايا الحافة وقواعد التقريب
Brownout (التحلل الجزئي): احسب النسبة المئوية للفشل (وقت التوقف المرجح)، وليس «0/1».
الخفقان: وحدة الحساب الدنيا - فترة العينة (على سبيل المثال، 30-60 ثانية) + الهستيريا (لمدة 2-5 دقائق).
انجراف الساعة: جميع الأوقات في التوقيت العالمي المنسق والتوقيت العالمي ISO-8601 ؛ مزامنة NTP.
7) أمثلة على PromQL (المواد التركيبية → وقت التشغيل)
نجاح مسح HTTP:promql probe_success{job="blackbox-http"} == 1
زمن الانتقال p95:
promql histogram_quantile(0.95, sum by (le, target) (rate(probe_http_duration_seconds_bucket[5m])))
وقت تشغيل SLA شهريًا (ثوانٍ):
promql sum_over_time((probe_success==1)[30d]) / (30246060)
نصاب الإخفاقات (المنطقة ≥2 3 دقائق):
promql sum by (target) (max_over_time((probe_success==0)[3m])) >= 2
8) أمثلة على SQL (تجميع التقارير)
وقت التشغيل والتوقف الشهري:sql with checks as (
select target, ts, success -- success: 1/0 from synthetic_checks where ts >=:from and ts <:to
),
agg as (
select date_trunc('month', ts) m, target,
sum(success)::float / count() as availability from checks group by 1,2
)
select m, target, availability,
(1-availability) extract(epoch from (date_trunc('month', m) + interval '1 month' - date_trunc('month', m))) / 60 as downtime_minutes from agg;
التوفيق (الحوادث):
sql select a.m, a.target, a.downtime_minutes, s.incident_id, s.start_utc, s.end_utc from monthly_downtime a left join statuspage_incidents s on a.m = date_trunc('month', s.start_utc)
and tstzrange(s.start_utc, s.end_utc) && daterange(a.m, a.m + interval '1 month');
9) نموذج التقرير الشهري (مناسب للعملاء)
yaml period: "2025-10-01..2025-10-31 (UTC)"
services:
- name: "API Edge"
sla: "99.90%"
measured_availability: "99.93%"
downtime:
total: "30m 14s"
windows:
- start: "2025-10-12T03:12Z"
end: "2025-10-12T03:38Z"
impact: "EU+NA, HTTP 5xx spike, p95>2s"
root_cause: "DB connection pool exhaustion"
rca_link: "INC-20251012-0312"
slo_budget:
period_target: "0.10%"
consumed: "0.07%"
- name: "Payments API"
sla: "99.95%"
measured_availability: "99.97%"
summary:
sla_breaches: 0 service_credits: 0 maintenance:
announced: 2 total_duration: "48m"
signatures:
generated_at: "2025-11-01T10:00Z"
report_id: "SLA-2025-10-API"
10) أرصدة جيش تحرير السودان: الحساب والتطبيق
جدول الأرصدة الدائنة: على سبيل المثال، 99. 0–99. 5٪ → 5٪ MRR ؛ 98. 0–99. 0٪ → 10٪، إلخ.
التصحيح: ينطبق الائتمان كملاحظة ائتمانية على الحساب التالي.
التشغيل الآلي: "if 'measured _ availability عرض للعميل: بطاقة البوابة «رصيد أرصدة SLA». 11) مراجعة الحسابات والأدلة والتعليق القانوني مسار مراجعة الحسابات: من/ماذا/عند الحساب، نسخة المنهجية، الشيكات. 12) المصالحة مع صفحة الوضع العام يجب أن يكون للحادث على صفحة الحالة جدول زمني ومكونات. 13) الحوادث والإبلاغ تتوافق كل نافذة توقف عن العمل مع بطاقة INC (معرف، SEV، مالك، RCA، CAPA). 14) مراقبة جودة البيانات نظافة العينات:> 99٪ من قصاصات العوامل الناجحة، وعدم وجود فجوات> 5 دقائق. 15) الأمن والخصوصية TLS/mTLS للابتلاع، توقيع الحزم (HMAC). 16) لوحات القيادة وودجات SLO (ماذا تظهر) التوفر العام حسب الخدمة للشهر/الربع. 17) خطة التنفيذ (3 تكرارات) 1. النموذج والبيانات (2 أسابيع): إصلاح SLI/SLO/SLA، بما في ذلك تركيب النصاب، وجمع «المواد الخام» في DWH. 18) قائمة مراجعة جودة التقرير 19) الأسئلة الشائعة الصغيرة وهو أقرب إلى مسار المستخدم ويتضمن محيطا (DNS/CDN/WAF). المقاييس/السجلات - توضيح السبب. وقت التوقف المرجح: نسبة الإخفاقات × مدة النافذة، وليس «الكل أو لا شيء». نعم فعلت. لمراجعة الحسابات وإعادة الحساب في النزاع - مطلوب خام. إن تقارير وقت التشغيل وعمليات تدقيق جيش تحرير السودان ليست «رقمًا في نهاية الشهر»، ولكنها نظام قابل للتكرار من القياسات والقواعد والأدلة: SLIs الصحيحة، وفحص النصاب القانوني، والصيغ الشفافة، والربط بالحوادث والفواتير، ومراقبة الاستثناء، والتعليق القانوني. قم بتسجيل المنهجية، وأتمتة الحساب والاعتمادات، واحتفظ بمسار التدقيق - وستصبح اتفاقيات SLA الخاصة بك سهلة الإدارة ومفهومة وآمنة.
البيانات الخام غير قابلة للتغيير (مذيلة فقط) ؛ - بواسطة سجلات منفصلة.
عقد قانوني: تجميد نطاق البيانات (عينات، سجلات، بطاقات حوادث، تنبيهات).
نسخة طبق الأصل - WORM/S3 Object Lock.
يتم إنشاء عدم تطابق الوقت/المقياس → بواسطة سجل التناقض ويتم نشره بواسطة RCA.
ويتضمن موجز التقرير قسم مذكرات التسوية.
في التقرير: رابط إلى INC، سبب جذري قصير، حالة CAPA.
بالنسبة SEV-1: مواضيع البريد ≤ 48 ساعة من الإغلاق.
مضاد الضوضاء: النصاب + النافذة المتعددة، debounce.
يتم تسجيل وتوثيق عينات التتبع/السجل.
اختبارات الطريقة: اختبارات وحدة الحسابات، الملفات الذهبية على أساس البيانات التاريخية.
إصدار PII في السجلات/التقارير ؛ يجب ألا يكشف تقرير جيش تحرير السودان عن البيانات الشخصية.
والمكتب الإقليمي لآسيا والمحيط الهادئ/المجلس الاستشاري لآسيا والمحيط الهادئ بشأن التقارير ؛ وتكتب آثار الوصول إلى سجل مراجعة الحسابات.
نوافذ التوقف مع شدة وقناة الكشف.
حرق ميزانية الخطأ (سريع/بطيء) والاتجاهات.
تراكب الإصدارات - شروح الحسابات.
توقعات ائتمانات SLA - بالاتجاه الحالي.
2. الحساب والتقرير (2-3 أسابيع): الصيغ، SQL/PromQL، نماذج YAML/PDF، بوابة العملاء، الاعتمادات التلقائية.
3. مراجعة الحسابات والتشغيل الآلي (3-4 أسابيع): عقد قانوني، تسوية مع صفحة الحالة، خطوط الويب الموقعة، لوائح المنازعات.
لماذا تعتبر المواد التركيبية المصدر الرئيسي ؟
كيف تحسب التدهور الجزئي ؟
هل أحتاج إلى تخزين الشيكات «الخام» ؟
النتيجة