GH GambleHub

חלונות תחזוקה

1) מהו ”חלון התחזוקה” ומדוע הוא נחוץ

חלון תחזוקה - מסגרת זמן מוסכמת מראש לפעילויות שעשויות להשפיע על זמינות/ביצועים. המטרה היא שינויים מבוקרים עם סיכון צפוי, תקשורת שקופה ודיווח מבוסס ראיות.

סוגים:
  • מתוכנן: שחרור, נדידה, סיבובי תעודה/מפתח, שדרוג מסד נתונים/ברוקר.
  • חירום: תיקוני בטיחות דחופים/תקריות גלגולים.
  • Silent/Zero-Effect: אין פגיעה במשתמש (קנריות חבויות, העתקים, קלט מקביל).
  • ספקית: חלונות של ספקים חיצוניים (PSP/KYC/CDN/Cloud).

2) עקרונות

SLO-first: ההחלטה על זמן/פורמט החלון מתקבלת בהתאם להשפעה על תקציבי SLI וטעויות.
רדיוס נפיצה מינימלי: canary # חוכמה חורגת = = הכללה מלאה.
לכל מבצע יש תוכנית גיבוי וחזרה מוכחת.
מקור אמת יחיד: חלון לוח שנה + כרטיס/RFC עם חבילת נתונים מלאה.
ראיות: אוסף ראיות (יומנים, גרפים, צילומי מסך, חשיש חפץ).
תקשורת SLA: מראש, במהלך העבודה, עם סיום.

3) תכנון: תזמון וכיסוי

בחירת חלונות: תנועה נמוכה, השפעה מינימלית לקוהורטות מפתח (אזורים/VIP/שותפים).
אזורי זמן: הקלט ב- UTC + זמן מקומי (לדוגמה, אירופה/קייב).
תקופות האפלה: איסור על עבודה בעונות שיא/אירועים (גפרורים, מכירות, שחרור ”חלונות המוות”).
רדיוס פיצוץ: להגדיר בבירור מי יושפע (שירותים, אזורים, ספקים).

4) תהליך משא ומתן (RFC/CAB lite)

1. היוצר יוצר כרטיס/RFC עם ניתוח סיכונים ותכנית (ראה תבנית להלן).
2. הערכת סיכונים (Low/Med/High) ואישור של בעל השירות + SRE/אבטחה.

3. לוח שנה: רישום חריצים; בדיקת קונפליקט (חלונות/ספקים אחרים)

4. תוכנית תקשורת: הודעות מוסכמות מראש ודף מצב.
5. Go/No-Go-פגישה (24-48 שעות) לשינויים בסיכון גבוה.

5) הכנה: שערי ביטחון

בדיקות טרום שיגור: בדיקות במה מוצלחות, חפצים חתומים, סיכונים כלליים מקובלים.
קנרית: 1% * 5% * 25% על ידי קוהורטה/אזור; אוטומטי SLO-gardrails ו-אוטומטי rollback.
דגלי השפלה והגבולות מוכנים.
תוכנית Rollback/Backout שנרשמה בארגז חול; פקודות רולבק מתועדות.
דיכוי התראות: רק לרעש הצפוי, אותות SLO אינם עמומים.
גישה: JIT/JEA אחראי על מבצעים, ביקורת חובה.

6) תקשורת (תזמון ותוכן)

T-14/7/2 ימים (מתוכננים): אזהרה ללקוחות/צוותים פנימיים (מה/מתי/השפעה/קשר).
T-60/30/15 דקות: תזכורות בתוך ובעמוד הסטטוס.
במהלך העבודה: עדכונים כל 15-30 דקות (SEV-תלוי) על פי התבנית: Impact # Stage # העדכון הבא.
לאחר מכן: ”הושלם באופן סופי/חלקי/מגולגל לאחור”, רשימת השינויים, בדיקת SLO.

7) ביצועים של יצירות (תרחיש התייחסות)

1. להקפיא שחרור לא קשור.
2. מעבר לקנרית (קוהורטה מוגבלת) = התבוננות במדדים SLI/p95/p99.
3. גידול חורג בנתח עם מעקות ירוקים.
4. אימות של SLI עסקי (המרה, הצלחה של תשלומים/רישום).
5. בדוק אימות פונקציונליות רשימה (מסלול שמח + תרחישים קריטיים).
6. שחרור/ללא שחרור פתרון (ICC/SRE/Service בעלים).
7. הסרת הדיכוי, החזרה של מדיניות כוננות.

8) לאחר החלון: אימות ודיווח

חלון תצפית (לדוגמה, 1-24 שעות): מעקב אחר SLO ושגיאות.
דו "ח חלון: מה נעשה, מדדים, סטיות, ראיות, בסך הכל.
אם היו בעיות: AAR = RCA = CAPA (תקן כללים, בדיקות, תיעוד).
ארכיון: כרטיס, חפצים, חתימות, צ 'קסום.

9) תיאום עם ספקים חיצוניים

חריצים מאושרים ואנשי קשר לספק; חלון במערכת הסטטוס שלהם.
פולבק/ניתוב לספק חלופי לתקופת העבודה.
חדר מלחמה אחד עם ספק (צ 'אט/ברידג') ועדכוני SLA.

10) מדידות בגרות תהליך

שיעור הזמן:% מהחלונות התחילו/הושלמו בזמן.
שינוי שיעור הכישלון:% מהחלונות עם גלגולים/השפעה על SLO.
תקריות שהתרחשו בחלון.
תקשורת SLA: נתח עדכונים בזמן.
ראיות שלמות:% מהחלונות עם חבילת ראיות מלאה.
פגיעה בלקוח: תלונות/כרטיסים לחלון 1, טרנד.
אחרי 7/30 ימים: יציבות ב-SLO וללא נסיגות.

11) רשימות בדיקה

לפני החלון

[ ] RFC/כרטיס מלא; הערכת סיכונים הושלמה; בעלים שהוקצה.
[ ] קנרית ותוכנית גיבוי בדוקה; פקודות רולבים נבדקו.
[ ] גישות JIT; התראות מוגדרות (SLOs אינם תקועים).
[ ] דף לוח השנה/מצב והודעות מוכנות.
[ ] משחררת/מתחרה חלונות קפואים/זזים.
[ ספקי ] אישרו; אנשי קשר ואנשי סל "א מוקלטים.

במהלך

[ ] עדכונים בלוח הזמנים; חדר המלחמה פעיל.
[ ] גרדריילים על שגיאות SLO/שיא מכובדים; במקרה של הפרה - אוטומטי rollback.
[ ] הראיות נאספות (צילומי מסך, לפני/אחרי הגרפים, יומן פעולה).

אחרי

[ ] SLO באזור ירוק במהלך חלון תצפית.
[ דו "ח סופי ] עם ראיות; דף מצב מעודכן.
[ ] "פים מונפקים (אם היו סטיות); תיעוד מעודכן.

12) תבניות

תבנית RFC לכל חלון תחזוקה


RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB

הודעת הלקוח תבנית (תקציר)


Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com      support@example. com

כללי דיכוי (רעיון)

yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]

13) מאפיינים לתחומים מוסדרים

יומן ביקורת בלתי ניתן לשינוי: מי אישר, מי ביצע, מה פקודות, חשיש של חפצים.
PII/Finance: מסווה בראיות, גישה מוגבלת לדיווחים.
תנאי הודעה ללקוחות ושותפים בהתאם לחוזים.
חלונות ספקים - מתועדים עם SLA חיצוני ואנשי קשר.

14) אנטי דפוסים

חלון ללא תכנית גיבוי ואימות rollback.
שיבוש של אותות SLO ”ליתר ביטחון”.
חלונות מתחרים באותו תחום/אזור.
שתיקת תקשורת: לא לפני/במהלך/לאחר עדכונים.
עריכה ידנית במוצר ללא ביקורת ותסריטים.
חלונות ”אינסופיים” בשל קריטריון הצלחה לא ברור.
חוסר ראיות - שום דבר כדי לאשר איכות.

15) מימוש מפת דרכים (שבועות 4-6)

1. נד. 1-Enter לוח שנה אחד ותבנית RFC מגדירים תקופות העלטה.
2. נד. 2: שערים סטנדרטיים (כנרית, SLO-gardrails, גיבוי).
3. נד. 3: דיכוי אוטומטי/שחרור אנוטציות ודף מצב.
4. נד. 4: מדדי דיווח ובגרות; בדיקת MW שבועית.
5. נד. 5-6: אינטגרציה עם ספקים וארכיון ביקורת; סימולציית חלון בסיכון גבוה.

16) השורה התחתונה

חלונות שירות מאורגנים כראוי ניתנים לשליטה, הפיכים ושינויים מאובטחים. עם SLO-gardrails, שפשופים קנריים, תקשורת קפדנית וסט מלא של ראיות, החלון הופך מ ”השבתה נוראית” למנגנון שגרתי של שיפורים ללא הפתעות למשתמשים ושותפים.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.