GH GambleHub

پنجره های نگهداری

1) «پنجره نگهداری» چیست و چرا لازم است

تعمیر و نگهداری پنجره - چارچوب زمانی از پیش توافق شده برای فعالیت هایی که به طور بالقوه در دسترس بودن/عملکرد تاثیر می گذارد. هدف، تغییرات کنترل شده با ریسک قابل پیش بینی، ارتباطات شفاف و گزارش مبتنی بر شواهد است.

انواع:
  • برنامه ریزی شده: انتشار، مهاجرت، چرخش گواهی/کلید، ارتقاء پایگاه داده/کارگزار.
  • اضطراری: رفع فوری ایمنی/بازگشت حادثه.
  • خاموش/صفر تاثیر: بدون تاثیر کاربر (قناری پنهان، کپی، ورودی موازی).
  • ارائه دهنده رهبری: پنجره های ارائه دهندگان خارجی (PSP/KYC/CDN/Cloud).

2) اصول

SLO اول: تصمیم گیری در زمان/فرمت پنجره با توجه به تاثیر بر SLI و بودجه خطا ساخته شده است.
حداقل شعاع انفجاری: قناری → گام به گام → گنجاندن کامل.
برگشت پذیری: هر عملیات دارای یک برنامه پشتیبان و یک بازپرداخت اثبات شده است.
تنها منبع حقیقت: تقویم پنجره + بلیط/RFC با بسته داده کامل.
شواهد: جمع آوری شواهد (سیاههها، نمودارها، تصاویر، هش های مصنوعی).
ارتباطات SLA: در پیشبرد، در طول کار، پس از اتمام.

3) برنامه ریزی: زمان بندی و پوشش

انتخاب پنجره: ترافیک کم، حداقل تاثیر برای گروه های کلیدی (مناطق/VIP/شرکا).
مناطق زمانی: ثبت در UTC + زمان محلی (به عنوان مثال، اروپا/کیف).
دوره خاموشی: ممنوعیت کار در فصول/رویدادهای اوج (مسابقات، فروش، انتشار «پنجره های مرگ»).
شعاع انفجار: به وضوح مشخص می کند که چه کسی تحت تاثیر قرار خواهد گرفت (خدمات، مناطق، ارائه دهندگان).

4) روند مذاکره (RFC/CAB lite)

1. سازنده یک بلیط/RFC با تجزیه و تحلیل ریسک و طرح ایجاد می کند (نگاه کنید به قالب زیر).
2. ارزیابی ریسک (Low/Med/High) و تأیید صاحب سرویس + SRE/security.

3. تقویم: رزرو اسلات ؛ بررسی تعارض (سایر پنجره ها/ارائه دهندگان)

4. طرح COMM: اطلاعیه از پیش توافق شده و صفحه وضعیت.
5. Go/No-Go-meeting (در 24-48 ساعت) برای تغییرات پرخطر.

5) آماده سازی: دروازه های امنیتی

چک های قبل از راه اندازی: آزمایش های مرحله موفقیت آمیز، مصنوعات امضا شده، خطرات کل قابل قبول ≤.
قناری: 1٪ → 5٪ → 25٪ توسط کوهورت/منطقه ؛ SLO-gardrails اتوماتیک و بازگشت خودکار.
پرچم های تخریب و محدودیت ها آماده هستند.
طرح برگشت/برگشت در جعبه شن و ماسه بررسی می شود ؛ دستورات برگشت ثبت شده اند.
سرکوب هشدارها: فقط برای نویز مورد انتظار، سیگنال های SLO خفه نمی شوند.
دسترسی: حساب های JIT/JEA برای عملیات، حسابرسی اجباری.

6) ارتباطات (زمان بندی و محتوا)

روزهای T-14/7/2 (برنامه ریزی شده): سرپرستی برای مشتریان/تیم های داخلی (چه زمانی/تاثیر/مخاطبین).
T-60/30/15 دقیقه: یادآوری در داخل و در صفحه وضعیت.
در طول کار: به روز رسانی هر 15-30 دقیقه (وابسته به SEV) با توجه به قالب: تاثیر → مرحله → به روز رسانی بعدی.
پس از: نهایی «تکمیل/تا حدی تکمیل/نورد تماس», لیست تغییرات, بررسی SLO.

7) عملکرد آثار (سناریوی مرجع)

1. یخ زدن نسخه های غیر مرتبط

2. انتقال به canary (گروه محدود) → معیارهای SLI/p95/p99 را مشاهده کنید.
3. افزایش گام به گام در سهم با گاردریل سبز.
4. تأیید SLI کسب و کار (تبدیل، موفقیت پرداخت/ثبت نام).
5. تأیید عملکرد لیست را بررسی کنید (مسیر مبارک + سناریوهای بحرانی).
6. راه حل انتشار/بدون انتشار (مالک IC/SRE/سرویس).
7. حذف سرکوب، بازگشت سیاست های هشدار.

8) پس از پنجره: تأیید و گزارش

پنجره مشاهده (به عنوان مثال، 1-24 ساعت): ردیابی SLO و خطاها.
گزارش پنجره: آنچه انجام شد، معیارها، انحرافات، شواهد، کل.
اگر مشکلی وجود داشت: AAR → RCA → CAPA (قوانین ثابت، تست ها، مستندات).
بایگانی: بلیط، مصنوعات، امضا، چک سام.

9) هماهنگی با ارائه دهندگان خارجی

اسلات های تایید شده و اطلاعات تماس ارائه دهنده ؛ پنجره ای در سیستم شما

Folback/routing به یک ارائه دهنده جایگزین برای دوره کار.
یک اتاق جنگ تنها با یک ارائه دهنده (چت/پل) و به روز رسانی SLA.

10) معیارهای بلوغ فرآیند

نرخ On-time: درصد پنجره های شروع شده/تکمیل شده در زمان.
نرخ شکست تغییر:٪ از پنجره ها با بازگشت/تاثیر در SLO.
Incident-during-MW: حوادثی که در طول پنجره رخ داده است.
SLA ارتباطات: سهم به روز رسانی به موقع.
شواهد کامل:٪ از پنجره ها با بسته کامل شواهد.
تاثیر مشتری: شکایات/بلیط برای 1 پنجره، روند.
پس از 7/30 روز: ثبات SLO و بدون عود.

11) چک لیست

قبل از پنجره

  • RFC/بلیط پر است ؛ ارزیابی ریسک تکمیل شده ؛ مالک اختصاص داده شده است.
  • قناری و عقب نشینی طرح بررسی می شود ؛ دستورات برگشت تست شده.
  • دسترسی JIT صادر شده است ؛ هشدارها پیکربندی شده اند (SLO ها مسدود نمی شوند).
  • صفحه تقویم/وضعیت و اطلاعیه ها آماده می شوند.
  • انتشار/رقابت ویندوز - منجمد/منتقل شده است.
  • ارائه دهندگان تایید ؛ تماس ها و SLA ها ضبط می شوند.

در طول

  • به روز رسانی در برنامه ؛ اتاق جنگ فعال است.
  • Gardrails در خطاهای SLO/Peak مورد احترام قرار می گیرند ؛ در صورت نقض - بازگشت خودکار.
  • شواهد جمع آوری شده است (تصاویر، قبل/بعد از نمودار، ورود به سیستم عمل).

پس از

  • SLO در منطقه سبز در طول پنجره مشاهده.
  • گزارش نهایی با شواهد ؛ صفحه وضعیت به روز شد.
  • CAPA ها صادر می شوند (اگر انحراف وجود داشته باشد) ؛ مستندات به روز شده

12) قالب ها

RFC الگو در هر پنجره تعمیر و نگهداری


RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB

قالب اطلاع رسانی مشتری (مختصر)


Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com      support@example. com

قوانین سرکوب (ایده)

yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]

13) ویژگی های دامنه های تنظیم شده

گزارش حسابرسی غیرقابل تغییر: چه کسی تأیید کرد، چه کسی اجرا کرد، چه دستوراتی، هش مصنوعات.
PII/Finance: پوشش در شواهد، دسترسی محدود به گزارش ها.
شرایط اطلاع رسانی به مشتریان و شرکا - مطابق با قراردادها.
پنجره های ارائه دهنده - با SLA های خارجی و مخاطبین مستند شده است.

14) ضد الگوهای

پنجره بدون برنامه پشتیبان و بازپرداخت تأیید شده.
مسدود کردن سیگنال های SLO «فقط در مورد».
پنجره های رقابتی در همان دامنه/منطقه.
سکوت Comm: هیچ قبل/در طول/پس از به روز رسانی.
ویرایش دستی در محصول بدون حسابرسی و اسکریپت.
پنجره های «بی نهایت» به دلیل معیارهای موفقیت نامشخص.
فقدان شواهد - هیچ چیز برای تایید کیفیت.

15) نقشه راه پیاده سازی (4-6 هفته)

1. «ند». 1-Enter یک تقویم واحد و قالب RFC دوره های خاموشی را تعریف می کنند.
2. «ند». 2: دروازه های استاندارد (قناری، SLO-gardrails، backout).
3. «ند». 3: خودکار حاشیه نویسی سرکوب/انتشار و صفحه وضعیت.

4. «ند». 4: معیارهای گزارش دهی و بلوغ ؛ بررسی هفتگی MW

5. «ند». 5-6: ادغام با ارائه دهندگان و آرشیو حسابرسی ؛ شبیه سازی پنجره با خطر بالا.

16) خط پایین

پنجره های خدماتی که به درستی سازماندهی شده اند، تغییرات قابل کنترل، برگشت پذیر و قابل اطمینان هستند. با SLO-gardrails، rasps canary، ارتباطات دقیق و مجموعه ای کامل از شواهد، پنجره از «خرابی وحشتناک» به یک مکانیسم معمول بهبود بدون شگفتی برای کاربران و شرکا تبدیل می شود.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.