תפקידים ואחריות במבצעים
1) מדוע למצות תפקידים
הקצאת תפקידים ברורה מפחיתה את MTTA/MTR, מבטלת אזורים אפורים, מאיצה את המשחררים, והופכת את SLO/צייתנית להתרבות. תפקידים = אחריות + סמכות + ממשקים (למי אנחנו כותבים, למי אנחנו מחריפים, אילו החלטות מורשות).
2) מודל RACI בסיסי
ר '(אחראי) - מבצע את העבודה.
א. נושא באחריות הסופית ומקבל החלטות.
מומחה, התייעץ לפני/במהלך.
אני מעודכן על ידי SLA.
3) קטלוג תפקידים (תיאורים ואחריות)
3. מפקד תקרית 1 (IC)
המטרה: להוביל את התגובה לתקרית SEV-1/0.
להכריז על סוו "ב, להקפיא שחרור, לעבור תנועה, להסלים.
משימות עיקריות: ציר זמן, קבלת החלטות, שימור מיקוד, הקצאת משימות, Go/No-Go.
חפצים: כרטיס אירוע, עדכוני SLA, AAR סופי.
3. 2 P1/P2 על קריאה (ראשי/משני)
מטרה: תגובה ראשונית ופעולות טכניות.
P1: מיון, הפעלת ספרי משחק, תקשורת עם IC.
תרמיל 2: גיבוי, שינויים מורכבים, שימור הקשר, בסערות - לוקח תת-זרמים.
3. 3 מהנדס SRE/פלטפורמה
מטרה: אמינות פלטפורמה ומעקה (SLO, התראות, GitOps, אוטוסקלה, DR).
משימות: SLI/SLO, היגיינה מתריעה, שחרור מתקדם, תשתיות כקוד, קיבולת, יכולת תצפית.
במהלך התקרית: אבחון שורש, גלגיליות/פולבקים, השפלת UX מופעלת.
3. 4 בעל שירות/בעל מוצר
מטרה: איכות השירות במובן העסקי.
משימות: הגדרת SLO/סדרי עדיפויות, תיאום שחרור/חלונות, השתתפות Go/No-Go.
תקשורת: להחליט מתי ומה לומר ללקוחות לצד תקשורת.
3. 5 מנהל שחרור
מטרה: החלפה בטוחה.
משימות: תזמור של שחרורים, בדיקה של שערים, כנרת/כחול-ירוק, הערות שחרור, הקפאה לתקריות.
3. 6 יו "ר מונית/מנהל שינוי
מטרה: שינוי ניהול סיכונים
משימות: תהליך RFC, תוכנית/גיבוי, לוח שנה קונפליקט, אישורים בסיכון גבוה.
3. 7 מנהל עופרת/בעיה של RCA
מטרה: תחקיר לאחר התקרית, קאפה.
מטרות: ציר זמן, סיבתיות ראייתית, פעולות לתיקון/מניעה, בקרת D + 14/D + 30.
3. 8 אבטחה (עופרת IR, AppSeck/CloudSeck)
תכלית: תגובת אבטחה ותקרית.
משימות: אירועי אבטחה מיון, סיבוב מפתח, בידוד, זיהוי פלילי, הודעות רגולטוריות, ביקורת תולעת.
3. 9 DataOps/Analytics
מטרה: מהימנות המידע וצינורות.
מטרות: רעננות/איכות (DQ), חוזי נתונים, שושלות, מילוי גב, SLA BI/דיווחים.
3. 10 פינופותComment
מטרה: ערך מנוהל.
משימות: מכסות/גבולות, דוחות $/יחידה, שערי תקציב, אופטימיזציות (יומן כרכים, יציאה, הזמנה).
3. 11 ציות/חוקי
מטרה: ציות רגולטורי וחוזי.
משימות: מונחי הודעה, שמירת/המצאה של ראיות, תיאום של טקסטים ציבוריים.
3. 12 תמיכה/תקשורת
מטרה: תקשורת עם לקוחות/בעלי עניין פנימי.
משימות: דף מצב, לעג לעדכונים, תדירות ובהירות של הודעות, אוסף של משוב.
3. 13 מנהל ספקים/בעל ספקים
המטרה: יחסים עם ספקים חיצוניים (PSP/KYC/CDN, וכו ').
משימות: הסלמה, SLA/OLA, נתיבי גיבוי, תיאום חלונות.
4) תפקידים במשמרת ובהסלמה
הזזה: P1/P2 + IC-of-the-day (לא לשלב עם P1).
הסלמה בזמן: P1 = P2 (5 דקות ללא אק) # IC (10 דקות) # Duty Manager (15 דקות).
שעות שקטות: אותות P2/P3 אינם מתעוררים; סימני אבטחה - תמיד.
5) ממשקים של אינטראקציות (עם מי ואיך)
מנהל שחרור ↔ IC: הקפא/רולבק פתרונות.
תקשורת ↔: עדכון טקסטים ותדירות.
SRE ↔ DataOps: business SLI (הצלחה בתשלום, רעננות נתונים) ב-SLO-gardrails.
↔ הביטחוני: דיווחים על אירועים ביטחוניים, תקופות הודעה.
ספק בעלים ↔ IC: מעמד ספק, החלפה/פולבק.
6) KPI לפי תפקיד (סימני ספסל)
IC: זמן להכריז, תקשורת SLA ציות, MTTR על ידי SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% עוקבים אחר ספרי שעשועים.
SRE/Platform: סיקור SLO, התראה היגיינה,% אוטומטי-rolbacks בהצלחה.
מנהל שחרור: שינוי קצב כישלון, חלונות בזמן, זמן רולבק ממוצע.
עופרת RCA: לאחר המוות עופרת זמן, CAPA השלמה/איחור, לפתוח מחדש 5-10%.
אבטחה: זמן מכוון להכיל, זמן סיבוב סודי/סרט.
DataOps: רעננות SLO הידבקות, אחוזי הצלחה ממלאים.
תקשורת: דיוק מצב, שיעור תלונות/תקרית.
FinOps: $/unit,% QoQ חיסכון, ציות מכסה.
7) תבניות כרטיס תפקידים
7. כרטיס 1 ICC
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. כרטיס 2 P1/P2
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 כרטיס מנהל שחרור
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) תהליכים והשתתפות תפקידים (סיכום)
א - אחראי, ר - אחראי, ג - התייעץ, אני - הודעתי.
9) רשימות בדיקה
9. 1 הקצאת תפקידים
[ ] לכל תפקיד יש בעלים, מחליף ואזור כיסוי.
[ ] מתוארים האישורים (מה שהחלטות יכולות לקבל).
[ ] חוברות משחקים וקישורים.
[ ] פרסמו SLAs על ידי תגובה/תקשורת.
[ תפקיד ] זמין ב-CMDB עבור כל שירות.
9. 2 משמרת ומסירה
[ כרטיס ] Shift עודכן (תקריות פעילות, סיכונים, חלונות).
[ ] גישות JIT/JEA מאומתות.
[ ] הודעת אקו לתעל ”שינוי מתקבל/עבר”.
9. 3 לאחר התקרית
[ ] AAR נערך, RCA הוקצה.
[ ] CAPA עם בעלים/מועדים, D + 14/D + 30 שליטה.
[ ] ספרי משחקים/התראות/מדיניות מעודכנים.
10) אנטי דפוסים
לא ברור ”מי מחליט” * עיכובים ומאמצי שכפול.
IC בשילוב עם P1 - אובדן מנהיגות.
תקשורת ציבורית ללא הסכם עם תקשורת/משפטית.
שחרור ללא שחרור מנהל ושערים * צמיחת CFR.
אין הזמנת תפקידים (מחלה/לעזוב).
”גבורה” במקום התהליך: אנחנו מצילים ידנית, אבל לא לתקן את המעקה.
התפקידים אינם משתקפים בקטלוג CMDB/Service Catalog.
11) הטבעה בכלים
ChatOps: "/who oncall', "/הכרזת שביעית ", "/hape", "/rollback ", "/status עדכון".
ספרייה/CMDB: לשירות יש בעלים, תורן, SLO, לוחות מחוונים, ספרי משחק, חלונות.
התראה כקוד: לכל עמוד יש בעלים וברירת מחדל.
פתרונות GitOps: IC/Release משתקפים בהטבות וכרטיסים.
12) מדדי בגרות חלוקת תפקידים
כיסוי תפקידים בספריות: 100% מהשירותים הקריטיים.
בתורנות SLA: Ack p95 floth 5 min; עמוד Storm p95 תחת שליטה.
לאחר המוות SLA: טיוטה על 72h; השלמת CAPA 85%.
שינוי ממשל:% שינויים בסיכון גבוה עם RFC/CAB -95%.
תקשורת: הידבקות - 95%, שיעור התלונות - QoQ.
13) תבניות מיני
13. 1 RACI לשירות (קובץ repo)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 פרופיל תפקידים (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) השורה התחתונה
המבצעים חזקים כאשר התפקידים שקופים, מועצמים ונבנים לתוך כלים. קטלוג התפקידים, RACI, ממשקים ברורים ומדדים לכל תפקיד הופכים תקריות, משחררים ומשתנים לתהליכים מנוהלים: החלטות מתקבלות במהירות, סיכונים נשלטים, והמשתמשים רואים שירות יציב.