GH GambleHub

نوافذ الصيانة

1) ما هي «نافذة الصيانة» ولماذا هي مطلوبة

نافذة الصيانة - إطار زمني متفق عليه مسبقا للأنشطة التي يمكن أن تؤثر على التوافر/الأداء. الهدف هو التحكم في التغييرات مع مخاطر يمكن التنبؤ بها واتصالات شفافة وإبلاغ قائم على الأدلة.

الأنواع:
  • المخطط: الإصدارات، والترحيل، والشهادات/تناوب المفاتيح، وتحسينات قاعدة البيانات/السمسار.
  • الطوارئ: إصلاحات السلامة العاجلة/التراجع عن الحوادث.
  • الصمت/التأثير الصفري: لا تأثير للمستخدم (طيور الكناري المخفية، النسخ المتماثلة، المدخلات الموازية).
  • بقيادة المزود: نوافذ المزودين الخارجيين (PSP/KYC/CDN/Cloud).

2) المبادئ

SLO-أولاً: يتم اتخاذ القرار بشأن وقت/شكل النافذة وفقًا للتأثير على ميزانيات SLI والخطأ.
الحد الأدنى لنصف قطر المتفجرات: → الكناري تدريجيا → الإدماج الكامل.
القابلية للانعكاس: تحتوي كل عملية على خطة تراجع وتراجع مثبت.
مصدر واحد للحقيقة: تقويم النافذة + التذكرة/RFC مع حزمة بيانات كاملة.
الأدلة: جمع الأدلة (السجلات والرسوم البيانية ولقطات الشاشة وتجزئة القطع الأثرية).
اتصالات جيش تحرير السودان: مقدما، أثناء العمل، عند الانتهاء.

3) التخطيط: التوقيت والتغطية

اختيار النوافذ: انخفاض حركة المرور، والحد الأدنى من التأثير على المجموعات الرئيسية (المناطق/كبار الشخصيات/الشركاء).
المناطق الزمنية: سجل بالتوقيت العالمي المنسق + بالتوقيت المحلي (على سبيل المثال، أوروبا/كييف).
فترات التعتيم: حظر العمل خلال مواسم الذروة/الأحداث (المباريات، المبيعات، إطلاق «نوافذ الموت»).
نصف قطر الانفجار: حدد بوضوح من سيتأثر (الخدمات والمناطق ومقدمي الخدمات).

4) عملية التفاوض (RFC/CAB lite)

1. يقوم المنشئ بإنشاء تذكرة/RFC مع تحليل المخاطر والتخطيط (انظر النموذج أدناه).
2. تقييم المخاطر (منخفض/متوسط/مرتفع) وموافقة مالك الخدمة + SRE/security.

3. التقويم: حجز الفتحة ؛ فحص النزاعات (النوافذ/مقدمو الخدمات الأخرى)

4. خطة الاتصال: الإخطارات المتفق عليها مسبقًا وصفحة الحالة.
5. Go/No-Go-meeting (في غضون 24-48 ساعة) للتغييرات عالية الخطورة.

5) التحضير: بوابات الأمن

فحوصات ما قبل الإطلاق: اختبارات المرحلة الناجحة، القطع الأثرية الموقعة، المخاطر الإجمالية ≤ مقبولة.
الكناري: 1%→5%→25٪ حسب الفوج/المنطقة ؛ SLO-gardrails التلقائية والتراجع التلقائي.
أعلام وحدود التحلل جاهزة.
خطة التراجع/التراجع التي تم فحصها في صندوق الرمل ؛ تم توثيق أوامر التراجع.
قمع التنبيهات: فقط للضوضاء المتوقعة، إشارات SLO ليست مكتومة.
عمليات الوصول: حسابات JIT/JEA للعمليات، التدقيق الإلزامي.

6) الاتصالات (التوقيت والمحتوى)

T-14/7/2 أيام (مخطط): تنبيه العملاء/الأفرقة الداخلية (ما/متى/التأثير/الاتصالات).
T-60/30/15 دقائق: رسائل تذكير داخل صفحة الحالة وفي داخلها.
أثناء العمل: تحديثات كل 15-30 دقيقة (تعتمد على SEV) وفقًا للنموذج: Impact → Stage → التحديث التالي.
بعد: «اكتمل/اكتمل جزئيًا/تراجع»، قائمة التغييرات، فحص SLO.

7) أداء الأعمال (السيناريو المرجعي)

1. تجميد الإصدارات غير ذات الصلة.
2. الانتقال إلى الكناري (المجموعة المقيدة) → مراقبة المقاييس SLI/p95/p99.
3. زيادة تدريجية في الحصة مع الحدائق الخضراء.
4. التحقق من الأرقام القياسية للأعمال التجارية (تحويل المدفوعات/التسجيلات ونجاحها).
5. تحقق من قائمة التحقق من الوظائف (مسار سعيد + سيناريوهات حرجة).
6. حل الإصدار/عدم الإصدار (IC/SRE/مالك الخدمة).
7. إزالة القمع وإعادة سياسات الإنذار.

8) بعد النافذة: التحقق والإبلاغ

نافذة المراقبة (على سبيل المثال، 1-24 ساعة): تتبع SLO والأخطاء.
تقرير النافذة: ما تم فعله، المقاييس، الانحرافات، الأدلة، المجموع.
إذا كانت هناك مشاكل: AAR→RCA→CAPA (إصلاح القواعد والاختبارات والتوثيق).
أرشيف: تذكرة، قطع أثرية، توقيعات، شيكات.

9) التنسيق مع مقدمي الخدمات الخارجيين

الفترات المؤكدة والاتصالات مع مقدمي الخدمات ؛ في نظام مركزها.
Folback/التوجيه إلى مزود بديل لفترة العمل.
غرفة حرب واحدة مع مزود (دردشة/جسر) وتحديثات SLA.

10) مقاييس نضج العملية

معدل في الوقت المحدد:% من النوافذ بدأت/اكتملت في الوقت المحدد.
معدل فشل التغيير:٪ من النوافذ مع التراجع/التأثير على SLO.
الحادثة أثناء ميجاوات: الحوادث التي وقعت أثناء النافذة.
الاتصال بجيش تحرير السودان: حصة من التحديثات في الوقت المناسب.
اكتمال الأدلة:% من النوافذ مع حزمة أدلة كاملة.
تأثير العملاء: شكاوى/تذاكر 1 النافذة، الاتجاه.
بعد 7/30 يومًا: استقرار SLO وعدم حدوث انتكاسات.

11) القوائم المرجعية

قبل النافذة

  • RFC/Ticket ممتلئة ؛ واستكمال تقييم المخاطر ؛ المالك المعين.
  • فحص خطة الكناري والخطة الاحتياطية ؛ اختبرت أوامر التراجع.
  • صدرت طلبات الوصول إلى الفريق ؛ يتم تشكيل التنبيهات (لا يتم تشويش SLOs).
  • تعد صفحة التقويم/الحالة والإخطارات.
  • الإصدارات/النوافذ المنافسة - المجمدة/المحولة.
  • تأكيد مقدمي الخدمات ؛ وتسجل الاتصالات وجيش تحرير السودان.

أثناء

  • تحديثات الجدول الزمني ؛ غرفة الحرب نشطة.
  • يتم احترام أخطاء Gardrails على SLO/الذروة ؛ في حالة الانتهاك - التراجع التلقائي.
  • يتم جمع الأدلة (لقطات شاشة، قبل/بعد الرسوم البيانية، سجل العمل).

بعد

  • SLO في المنطقة الخضراء أثناء نافذة المراقبة.
  • التقرير النهائي مع الأدلة ؛ تم تحديث صفحة الحالة.
  • تصدر الخطط (إذا كانت هناك انحرافات) ؛ تحديث الوثائق.

12) النماذج

قالب RFC لكل نافذة صيانة


RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB

نموذج إخطار العملاء (موجز)


Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com      support@example. com

قواعد القمع (فكرة)

yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]

13) ميزات المجالات المنظمة

سجل التدقيق غير قابل للتغيير: من وافق، ومن نفذ، وما هي الأوامر، وتجزئة القطع الأثرية.
PII/Finance: إخفاء الأدلة، ومحدودية الوصول إلى التقارير.
شروط الإخطارات للعملاء والشركاء - وفقًا للعقود.
نوافذ مقدمي الخدمات - موثقة باتفاقات واتصالات خارجية.

14) الأنماط المضادة

نافذة بدون خطة احتياطية والتراجع الذي تم التحقق منه.
تشويش إشارات SLO «فقط في حالة».
نوافذ متنافسة في نفس المجال/المنطقة.
صمت الاتصال: لا قبل/أثناء/بعد التحديثات.
تعديلات يدوية في المنتج بدون تدقيق ونصوص.
النوافذ «اللانهائية» بسبب معايير النجاح غير المؤكدة.
نقص الأدلة - لا شيء لتأكيد الجودة.

15) خارطة طريق التنفيذ (4-6 أسابيع)

1. نيد. 1-Enter تقويم واحد ونموذج RFC يحدد فترات التعتيم.
2. نيد. 2: توحيد البوابات (الكناري، SLO-gardrails، backout).
3. نيد. 3: أتمتة شروح القمع/الإصدار وصفحة الحالة.
4. نيد. 4: مقاييس الإبلاغ والنضج ؛ مراجعة MW الأسبوعية.
5. نيد. 5-6: التكامل مع مقدمي الخدمات ومحفوظات مراجعة الحسابات ؛ محاكاة النوافذ عالية الخطورة.

16) خلاصة القول

نوافذ الخدمة المنظمة بشكل صحيح يمكن التحكم فيها، ويمكن عكسها، ويمكن إثبات تغييرات آمنة. مع SLO-gardrails و canary rass والاتصالات الصارمة ومجموعة كاملة من الأدلة، تتحول النافذة من «فترة توقف مروعة» إلى آلية روتينية للتحسينات دون مفاجآت للمستخدمين والشركاء.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.