نوافذ الصيانة
1) ما هي «نافذة الصيانة» ولماذا هي مطلوبة
نافذة الصيانة - إطار زمني متفق عليه مسبقا للأنشطة التي يمكن أن تؤثر على التوافر/الأداء. الهدف هو التحكم في التغييرات مع مخاطر يمكن التنبؤ بها واتصالات شفافة وإبلاغ قائم على الأدلة.
الأنواع:- المخطط: الإصدارات، والترحيل، والشهادات/تناوب المفاتيح، وتحسينات قاعدة البيانات/السمسار.
- الطوارئ: إصلاحات السلامة العاجلة/التراجع عن الحوادث.
- الصمت/التأثير الصفري: لا تأثير للمستخدم (طيور الكناري المخفية، النسخ المتماثلة، المدخلات الموازية).
- بقيادة المزود: نوافذ المزودين الخارجيين (PSP/KYC/CDN/Cloud).
2) المبادئ
SLO-أولاً: يتم اتخاذ القرار بشأن وقت/شكل النافذة وفقًا للتأثير على ميزانيات SLI والخطأ.
الحد الأدنى لنصف قطر المتفجرات: → الكناري تدريجيا → الإدماج الكامل.
القابلية للانعكاس: تحتوي كل عملية على خطة تراجع وتراجع مثبت.
مصدر واحد للحقيقة: تقويم النافذة + التذكرة/RFC مع حزمة بيانات كاملة.
الأدلة: جمع الأدلة (السجلات والرسوم البيانية ولقطات الشاشة وتجزئة القطع الأثرية).
اتصالات جيش تحرير السودان: مقدما، أثناء العمل، عند الانتهاء.
3) التخطيط: التوقيت والتغطية
اختيار النوافذ: انخفاض حركة المرور، والحد الأدنى من التأثير على المجموعات الرئيسية (المناطق/كبار الشخصيات/الشركاء).
المناطق الزمنية: سجل بالتوقيت العالمي المنسق + بالتوقيت المحلي (على سبيل المثال، أوروبا/كييف).
فترات التعتيم: حظر العمل خلال مواسم الذروة/الأحداث (المباريات، المبيعات، إطلاق «نوافذ الموت»).
نصف قطر الانفجار: حدد بوضوح من سيتأثر (الخدمات والمناطق ومقدمي الخدمات).
4) عملية التفاوض (RFC/CAB lite)
1. يقوم المنشئ بإنشاء تذكرة/RFC مع تحليل المخاطر والتخطيط (انظر النموذج أدناه).
2. تقييم المخاطر (منخفض/متوسط/مرتفع) وموافقة مالك الخدمة + SRE/security.
3. التقويم: حجز الفتحة ؛ فحص النزاعات (النوافذ/مقدمو الخدمات الأخرى)
4. خطة الاتصال: الإخطارات المتفق عليها مسبقًا وصفحة الحالة.
5. Go/No-Go-meeting (في غضون 24-48 ساعة) للتغييرات عالية الخطورة.
5) التحضير: بوابات الأمن
فحوصات ما قبل الإطلاق: اختبارات المرحلة الناجحة، القطع الأثرية الموقعة، المخاطر الإجمالية ≤ مقبولة.
الكناري: 1%→5%→25٪ حسب الفوج/المنطقة ؛ SLO-gardrails التلقائية والتراجع التلقائي.
أعلام وحدود التحلل جاهزة.
خطة التراجع/التراجع التي تم فحصها في صندوق الرمل ؛ تم توثيق أوامر التراجع.
قمع التنبيهات: فقط للضوضاء المتوقعة، إشارات SLO ليست مكتومة.
عمليات الوصول: حسابات JIT/JEA للعمليات، التدقيق الإلزامي.
6) الاتصالات (التوقيت والمحتوى)
T-14/7/2 أيام (مخطط): تنبيه العملاء/الأفرقة الداخلية (ما/متى/التأثير/الاتصالات).
T-60/30/15 دقائق: رسائل تذكير داخل صفحة الحالة وفي داخلها.
أثناء العمل: تحديثات كل 15-30 دقيقة (تعتمد على SEV) وفقًا للنموذج: Impact → Stage → التحديث التالي.
بعد: «اكتمل/اكتمل جزئيًا/تراجع»، قائمة التغييرات، فحص SLO.
7) أداء الأعمال (السيناريو المرجعي)
1. تجميد الإصدارات غير ذات الصلة.
2. الانتقال إلى الكناري (المجموعة المقيدة) → مراقبة المقاييس SLI/p95/p99.
3. زيادة تدريجية في الحصة مع الحدائق الخضراء.
4. التحقق من الأرقام القياسية للأعمال التجارية (تحويل المدفوعات/التسجيلات ونجاحها).
5. تحقق من قائمة التحقق من الوظائف (مسار سعيد + سيناريوهات حرجة).
6. حل الإصدار/عدم الإصدار (IC/SRE/مالك الخدمة).
7. إزالة القمع وإعادة سياسات الإنذار.
8) بعد النافذة: التحقق والإبلاغ
نافذة المراقبة (على سبيل المثال، 1-24 ساعة): تتبع SLO والأخطاء.
تقرير النافذة: ما تم فعله، المقاييس، الانحرافات، الأدلة، المجموع.
إذا كانت هناك مشاكل: AAR→RCA→CAPA (إصلاح القواعد والاختبارات والتوثيق).
أرشيف: تذكرة، قطع أثرية، توقيعات، شيكات.
9) التنسيق مع مقدمي الخدمات الخارجيين
الفترات المؤكدة والاتصالات مع مقدمي الخدمات ؛ في نظام مركزها.
Folback/التوجيه إلى مزود بديل لفترة العمل.
غرفة حرب واحدة مع مزود (دردشة/جسر) وتحديثات SLA.
10) مقاييس نضج العملية
معدل في الوقت المحدد:% من النوافذ بدأت/اكتملت في الوقت المحدد.
معدل فشل التغيير:٪ من النوافذ مع التراجع/التأثير على SLO.
الحادثة أثناء ميجاوات: الحوادث التي وقعت أثناء النافذة.
الاتصال بجيش تحرير السودان: حصة من التحديثات في الوقت المناسب.
اكتمال الأدلة:% من النوافذ مع حزمة أدلة كاملة.
تأثير العملاء: شكاوى/تذاكر 1 النافذة، الاتجاه.
بعد 7/30 يومًا: استقرار SLO وعدم حدوث انتكاسات.
11) القوائم المرجعية
قبل النافذة
- RFC/Ticket ممتلئة ؛ واستكمال تقييم المخاطر ؛ المالك المعين.
- فحص خطة الكناري والخطة الاحتياطية ؛ اختبرت أوامر التراجع.
- صدرت طلبات الوصول إلى الفريق ؛ يتم تشكيل التنبيهات (لا يتم تشويش SLOs).
- تعد صفحة التقويم/الحالة والإخطارات.
- الإصدارات/النوافذ المنافسة - المجمدة/المحولة.
- تأكيد مقدمي الخدمات ؛ وتسجل الاتصالات وجيش تحرير السودان.
أثناء
- تحديثات الجدول الزمني ؛ غرفة الحرب نشطة.
- يتم احترام أخطاء Gardrails على SLO/الذروة ؛ في حالة الانتهاك - التراجع التلقائي.
- يتم جمع الأدلة (لقطات شاشة، قبل/بعد الرسوم البيانية، سجل العمل).
بعد
- SLO في المنطقة الخضراء أثناء نافذة المراقبة.
- التقرير النهائي مع الأدلة ؛ تم تحديث صفحة الحالة.
- تصدر الخطط (إذا كانت هناك انحرافات) ؛ تحديث الوثائق.
12) النماذج
قالب RFC لكل نافذة صيانة
RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB
نموذج إخطار العملاء (موجز)
Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com support@example. com
قواعد القمع (فكرة)
yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]
13) ميزات المجالات المنظمة
سجل التدقيق غير قابل للتغيير: من وافق، ومن نفذ، وما هي الأوامر، وتجزئة القطع الأثرية.
PII/Finance: إخفاء الأدلة، ومحدودية الوصول إلى التقارير.
شروط الإخطارات للعملاء والشركاء - وفقًا للعقود.
نوافذ مقدمي الخدمات - موثقة باتفاقات واتصالات خارجية.
14) الأنماط المضادة
نافذة بدون خطة احتياطية والتراجع الذي تم التحقق منه.
تشويش إشارات SLO «فقط في حالة».
نوافذ متنافسة في نفس المجال/المنطقة.
صمت الاتصال: لا قبل/أثناء/بعد التحديثات.
تعديلات يدوية في المنتج بدون تدقيق ونصوص.
النوافذ «اللانهائية» بسبب معايير النجاح غير المؤكدة.
نقص الأدلة - لا شيء لتأكيد الجودة.
15) خارطة طريق التنفيذ (4-6 أسابيع)
1. نيد. 1-Enter تقويم واحد ونموذج RFC يحدد فترات التعتيم.
2. نيد. 2: توحيد البوابات (الكناري، SLO-gardrails، backout).
3. نيد. 3: أتمتة شروح القمع/الإصدار وصفحة الحالة.
4. نيد. 4: مقاييس الإبلاغ والنضج ؛ مراجعة MW الأسبوعية.
5. نيد. 5-6: التكامل مع مقدمي الخدمات ومحفوظات مراجعة الحسابات ؛ محاكاة النوافذ عالية الخطورة.
16) خلاصة القول
نوافذ الخدمة المنظمة بشكل صحيح يمكن التحكم فيها، ويمكن عكسها، ويمكن إثبات تغييرات آمنة. مع SLO-gardrails و canary rass والاتصالات الصارمة ومجموعة كاملة من الأدلة، تتحول النافذة من «فترة توقف مروعة» إلى آلية روتينية للتحسينات دون مفاجآت للمستخدمين والشركاء.