שינוי חובה והעברת משימות
1) מדוע לרשום משמרות חובה
שינוי חובה הוא רגע קריטי של סיכון: ההקשר אבד, זמן התגובה עולה, הפעולות משוכפלות. התהליך הפורמלי מקטין את MTTA/MTTR, מסלק ”זנבות נשכחים” ומבטיח ציות (מי קיבל אחריות ומתי).
2) תפקידים ומודל כיסוי
תגובה ראשונה, מיון, תיאום לפני הגעת IC.
גיבוי, מתחבר בזמן עומס יתר/הסלמה.
Duty Manager/IC-of-the-Day הוא מוביל התקרית של SEV-1 +.
Follow-the-sun (אזור רב פעמי) או Follow-the-moon (כיסוי לילה באזורים אחרים).
חלונות זמן: להימנע משחרור/עבודה מסוכנת בעוד 30 דקות.
3) לוחות זמנים לסיבוב (דוגמאות)
24/7, משמרות של 8 שעות: בוקר/יום/לילה, 3 חטיבות, P1 + P2.
24/7, משמרות של 12 שעות: פחות מתגים, סיכון גבוה יותר לעייפות - צריך ”חלונות פיצוי”.
5 × 8 (ימי עבודה) + סופשבוע בריכה: יום כיסוי ראשוני על ידי צוות מוצר, סוף שבוע - פלטפורמה/SRE.
ימי חול ”בזמן משרד”, לילות/סופי שבוע - אחרי השמש.
חוקי ההגינות: סבב לוח שנה, חשבונאות חופשה/חופשה, משמרות לילה מקסימום בכל תקופה.
4) כרטיס העברת משמרות
סטנדרט תוכן מינימלי:- מתי ומי: ”תאריך/זמן (UTC ומקומי)”, משדר מקבלות = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = אנשי הקשר P1/P2.
- מצב המערכות: סיכום SLO/SLA, התראות אקטיביות, השפלה ידועה.
- תקריות פתוחות: מספר זיהוי לצורכים, SEV, השלב הנוכחי, מי הבעלים, הפעולה הבאה/זמן הגעה משוער.
- סיכונים לחלון המשמרת: עבודה מתוכננת, שחרור, נדידה, הגבלת מצבים (מכסות ספק).
- כרטיסים/משימות קריטיות: עדיפות, חוסמים, מועדים.
- תקשורת בחוץ: הודעות פעילות בעמוד הסטטוס/לקוח עדכונים.
- מעגלים ידועים: כולל דגלים בעלי תכונה מושפלת, מגבלות זמן.
- Domenica: ספקי תשלומים/KYC/CDN - הסטטוסים והניתוב שלהם.
- משק בית: מי בכוננות מחר, אנשים לא זמינים חלונות (עצרות/טיסות).
5) ”יד מעל משמרת” רשימה (צד הנפקה)
[ ] עדכן את כרטיס ההזזה (כל השדות) ותיקן את הקישור בערוץ '# oncall-handover'.
[ ] מתורגם ”ידע בעל ־ פה” לכרטיסים/הערות; אין משימות ”בראש”.
[ ] כל התקריות יש: SEV, בעלים, השלב הבא, זמן עדכון הבא.
[ ] דף הסטטוס ועדכוני הלקוח תואמים את המצב עצמו.
[ ] התראות רועשות/שווא (לפי הנוהל) או מסומנות בכרטיס.
[ ] בדקו את המכסות/המגבלות של הספקים החיצוניים לחלון המשמרת הבא.
[ ] מסונכרן על ידי קול/וידאו במשך 5-10 דקות (אם SEV-1 + פעיל).
[ ] רשם את העובדה של העברה (כרטיס/בוט), ציין המקבל.
6) ”אני מקבל משמרת” רשימה (צד מקבל)
[ ] קרא את הכרטיס, הבהיר שאלות פתוחות.
[ ] בדקו לוחות מחוונים ב- 2-4 השעות האחרונות.
[ ] אישר את התפקיד של P1/P2 בוט (הקצאה) ואת הערוצים/קול של האיתורית.
[ ] בעלות על אירועים אקטיביים ועדכונים עדכניים.
[ ] בדקו עבודות/שחרורים מתוכננים, ביטלו פעולות מסוכנות במשך 30 הדקות הראשונות.
[ ] עשיתי "הד" לערוץ: "לקחתי משמרת, תקריות פעילות:... עדכון ב "..
7) תקני תקשורת
Actilieved: ”# oncall',” # תקרית-warroom- <ID> ”# statuspage”.
מרווחי עדכון: SEV-0: 15 דקות, SEV-1: 30 דקות, SEV-2 +: 60 דקות.
פורמט עדכון: השפעה - אבחון - פעולות - עדכון הבא (זמן).
הסלמה: אין התקדמות ב ־ N דקות # לחבר בין TL/Platform/DB/Sec על ידי מטריצה.
בהירות הבעלות: לכל פעולה יש אמן ומשוער.
8) העברת משימות (לא תקרית)
קריטריון העברה: חסמי משימה SLO/שחרור/ציות או פג תוקף.
עיצוב: כרטיס עם הגדרת השלב הבא והתוצאה הצפויה, כל החפצים (רישומים/תמונות/גרפים) מצורפים.
סדר עדיפויות: Kanban- שחיין ”ממסר בכוננות”.
מועדים: לשידורים יש תאריך יעד; העיכובים מחריפים לבעלים של השירות.
9) אוטומציה ואינטגרציה
לוח שנה סיבוב: סנכרון עם זימונית; בוט מפרסם ”מי בתפקיד” בתחילת המשמרת.
ChatOps: '/handover start', אוסף אוטומטי של כרטיסים ממקורות (SLO statuses, תקריות פתוחות, משחררים).
Ticketing: משימה אוטומטית של הבעלים על ידי P1/P2; תגי ”מסירה”.
עמוד מצב: גשר לעדכונים ציבוריים עם תבניות.
ביקורת: יומן תמסורת (מי/מתי שהתקבל), תקשורת עם SEV ודיווחים.
10) ניהול עייפות
גבולות: מקסימום X עמודים/שעה ו Y ברצף בלילה - ללכת P2/escalation.
שעות שקטות להתראות לא קריטיות (כרטיסים במקום קריאה).
פיצוי לאחר שעות ומנוחה לאחר התקרית.
אימון וצל למהנדסים תורניים חדשים.
נקודות מבט לאחור של משמרות רעשניות. כוונון של התראות וספרי משחק.
11) מדדים איכותיים של משמרות ומעברים
שיעור פגם ידני: פרופורציה של תקריות עם אובדן הקשר במהלך שינוי.
MTTA סביב שינוי: חציוני/פסגות של 30 דקות ממחלף.
עדכוני החמצת/איחור: עדכוני SEV פגו.
התראה על היגיינה:% עמודים כוזבים; התראות ללא ארנק/בעלים.
טעינה לכל הזזה: עמודים/שעה, משך עבודה פעיל ממוצע.
שביעות רצון: משמרות NPS (סקירה תורנית), עייפות בקנה מידה.
12) תקשורת עם ניהול אירועים ו ־ RCA
אירועים פעילים אינם נסגרים בעת המשמרת; האחריות מועברת ותוקנה במפורש.
ב-RCA נדרש סעיף "Shift Impact': האם היה סחיפה בהקשר, עדכון מאוחר, פעולה כפולה.
שיפור בכרטיסים, בדיקות, אוטומציה, אימונים.
13) ביטחון, ציות וסודיות
פיי/סודות אסורים בטקסט החופשי של הקלפים; קישורים למאגרים מאובטחים.
גישה זמנית: זכויות תורניות ניתנות עבור חלון ההזזה (JIT/JEA), סיבוב מפתח.
עקבות ביקורת: יומן בלתי משתנה שקרא/שינה את דף הכרטיס והמצב.
רגולטורי: תנאי הודעת הלקוח נשלטים בכרטיס המשמרת.
14) אנטי דפוסים
”אני אתן את זה בעל פה” בלי כרטיס/כרטיס.
לשחרר בדיוק בזמן של המשמרת ללא IC וגיבוי.
זימונית באדם ”על המטוס/הרכבת התחתית” ללא P2.
כרטיס כ ”גיליון” ללא השלב הבא/זמן הגעה משוער.
מיון שיחות אישיות - מידע אבוד, ביקורת היא בלתי אפשרית.
אין תיעוד לעובדה של העברה - ”מי ענה” סכסוכים.
15) תבניות
תבנית כרטיס הזזה (דחוס)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
קבל תבנית הד
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) הטבעה בתרגול יומיומי
טקס משמרת יומי: 5-10 דקות סינכרון קול בתקריות פעילות.
ביקורת כרטיס שבועית: בדוק באופן סלקטיבי שלמות/רלוונטיות.
ימי משחק: סימולציה של משמרות עם אירועים מקבילים רבים.
ספריית המזח: תבניות של קלפים/רשימות ביקורת במאגר, סקירה כקוד.
17) השורה התחתונה
משמרות והעברות מאורגנות היטב הן ה ”סיכה” של כל מכונת ההפעלה. כרטיס הזזה, סינכרוניזציות קצרות, רשימות בדיקה קפדניות, אוטומציה ודאגה ליציבות הצוות הופכים רגעים מסוכנים לשגרה ללא אובדן איכות: ההקשר נשמר, זמן התגובה יציב והמשתמשים אינם מבחינים כלל בשינוי החובה.