GH GambleHub

תפקידים ואחריות במבצעים

1) מדוע למצות תפקידים

הקצאת תפקידים ברורה מפחיתה את MTTA/MTR, מבטלת אזורים אפורים, מאיצה את המשחררים, והופכת את SLO/צייתנית להתרבות. תפקידים = אחריות + סמכות + ממשקים (למי אנחנו כותבים, למי אנחנו מחריפים, אילו החלטות מורשות).

2) מודל RACI בסיסי

ר '(אחראי) - מבצע את העבודה.
א. נושא באחריות הסופית ומקבל החלטות.
מומחה, התייעץ לפני/במהלך.
אני מעודכן על ידי SLA.

דוגמא ברמה העליונה:
תהליךARCאני
תקריות (SEV-1/0)ICP1/P2, SRE, צוות בעלותאבטחה, מוצר, נתוניםMgmt, תמיכה
משחררשחרור מנהל/בעליםDev, פלטפורמה/SREאבטחה, קיו-אייתמיכה, Mgmt
שינויים (RFC/CAB)כיסא מוניתבעל השירותאבטחה, SRE, נתוניםצוותים מושפעים
חלונות תחזוקהבעל השירותפלטפורמה/SREמוצר, תמיכהלקוחות/שותפים
לאחר המוותעופרת RCAבעלות צוות, סופראבטחה, נתונים, מוצרmgmt

3) קטלוג תפקידים (תיאורים ואחריות)

3. מפקד תקרית 1 (IC)

המטרה: להוביל את התגובה לתקרית SEV-1/0.
להכריז על סוו "ב, להקפיא שחרור, לעבור תנועה, להסלים.
משימות עיקריות: ציר זמן, קבלת החלטות, שימור מיקוד, הקצאת משימות, Go/No-Go.
חפצים: כרטיס אירוע, עדכוני SLA, AAR סופי.

3. 2 P1/P2 על קריאה (ראשי/משני)

מטרה: תגובה ראשונית ופעולות טכניות.
P1: מיון, הפעלת ספרי משחק, תקשורת עם IC.
תרמיל 2: גיבוי, שינויים מורכבים, שימור הקשר, בסערות - לוקח תת-זרמים.

3. 3 מהנדס SRE/פלטפורמה

מטרה: אמינות פלטפורמה ומעקה (SLO, התראות, GitOps, אוטוסקלה, DR).
משימות: SLI/SLO, היגיינה מתריעה, שחרור מתקדם, תשתיות כקוד, קיבולת, יכולת תצפית.
במהלך התקרית: אבחון שורש, גלגיליות/פולבקים, השפלת UX מופעלת.

3. 4 בעל שירות/בעל מוצר

מטרה: איכות השירות במובן העסקי.
משימות: הגדרת SLO/סדרי עדיפויות, תיאום שחרור/חלונות, השתתפות Go/No-Go.
תקשורת: להחליט מתי ומה לומר ללקוחות לצד תקשורת.

3. 5 מנהל שחרור

מטרה: החלפה בטוחה.
משימות: תזמור של שחרורים, בדיקה של שערים, כנרת/כחול-ירוק, הערות שחרור, הקפאה לתקריות.

3. 6 יו "ר מונית/מנהל שינוי

מטרה: שינוי ניהול סיכונים

משימות: תהליך RFC, תוכנית/גיבוי, לוח שנה קונפליקט, אישורים בסיכון גבוה.

3. 7 מנהל עופרת/בעיה של RCA

מטרה: תחקיר לאחר התקרית, קאפה.
מטרות: ציר זמן, סיבתיות ראייתית, פעולות לתיקון/מניעה, בקרת D + 14/D + 30.

3. 8 אבטחה (עופרת IR, AppSeck/CloudSeck)

תכלית: תגובת אבטחה ותקרית.
משימות: אירועי אבטחה מיון, סיבוב מפתח, בידוד, זיהוי פלילי, הודעות רגולטוריות, ביקורת תולעת.

3. 9 DataOps/Analytics

מטרה: מהימנות המידע וצינורות.
מטרות: רעננות/איכות (DQ), חוזי נתונים, שושלות, מילוי גב, SLA BI/דיווחים.

3. 10 פינופותComment

מטרה: ערך מנוהל.
משימות: מכסות/גבולות, דוחות $/יחידה, שערי תקציב, אופטימיזציות (יומן כרכים, יציאה, הזמנה).

3. 11 ציות/חוקי

מטרה: ציות רגולטורי וחוזי.
משימות: מונחי הודעה, שמירת/המצאה של ראיות, תיאום של טקסטים ציבוריים.

3. 12 תמיכה/תקשורת

מטרה: תקשורת עם לקוחות/בעלי עניין פנימי.
משימות: דף מצב, לעג לעדכונים, תדירות ובהירות של הודעות, אוסף של משוב.

3. 13 מנהל ספקים/בעל ספקים

המטרה: יחסים עם ספקים חיצוניים (PSP/KYC/CDN, וכו ').
משימות: הסלמה, SLA/OLA, נתיבי גיבוי, תיאום חלונות.

4) תפקידים במשמרת ובהסלמה

הזזה: P1/P2 + IC-of-the-day (לא לשלב עם P1).
הסלמה בזמן: P1 = P2 (5 דקות ללא אק) # IC (10 דקות) # Duty Manager (15 דקות).
שעות שקטות: אותות P2/P3 אינם מתעוררים; סימני אבטחה - תמיד.

5) ממשקים של אינטראקציות (עם מי ואיך)

מנהל שחרור ↔ IC: הקפא/רולבק פתרונות.
תקשורת ↔: עדכון טקסטים ותדירות.
SRE ↔ DataOps: business SLI (הצלחה בתשלום, רעננות נתונים) ב-SLO-gardrails.
↔ הביטחוני: דיווחים על אירועים ביטחוניים, תקופות הודעה.
ספק בעלים ↔ IC: מעמד ספק, החלפה/פולבק.

6) KPI לפי תפקיד (סימני ספסל)

IC: זמן להכריז, תקשורת SLA ציות, MTTR על ידי SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% עוקבים אחר ספרי שעשועים.
SRE/Platform: סיקור SLO, התראה היגיינה,% אוטומטי-rolbacks בהצלחה.
מנהל שחרור: שינוי קצב כישלון, חלונות בזמן, זמן רולבק ממוצע.
עופרת RCA: לאחר המוות עופרת זמן, CAPA השלמה/איחור, לפתוח מחדש 5-10%.
אבטחה: זמן מכוון להכיל, זמן סיבוב סודי/סרט.
DataOps: רעננות SLO הידבקות, אחוזי הצלחה ממלאים.
תקשורת: דיוק מצב, שיעור תלונות/תקרית.
FinOps: $/unit,% QoQ חיסכון, ציות מכסה.

7) תבניות כרטיס תפקידים

7. כרטיס 1 ICC


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. כרטיס 2 P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 כרטיס מנהל שחרור


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) תהליכים והשתתפות תפקידים (סיכום)

תהליךICP1/P2SRE/פלטפורמהבעליםשחרורמוניתאבטחהDataOpsתקשורתספק
תקריתARRCאניאניCCRC
שחרוראניאניCARCCCאניאני
RFC/WindowאניאניRACACCCC
לאחר המוותARRCCאניCCאניאני

א - אחראי, ר - אחראי, ג - התייעץ, אני - הודעתי.

9) רשימות בדיקה

9. 1 הקצאת תפקידים

[ ] לכל תפקיד יש בעלים, מחליף ואזור כיסוי.
[ ] מתוארים האישורים (מה שהחלטות יכולות לקבל).
[ ] חוברות משחקים וקישורים.
[ ] פרסמו SLAs על ידי תגובה/תקשורת.
[ תפקיד ] זמין ב-CMDB עבור כל שירות.

9. 2 משמרת ומסירה

[ כרטיס ] Shift עודכן (תקריות פעילות, סיכונים, חלונות).
[ ] גישות JIT/JEA מאומתות.
[ ] הודעת אקו לתעל ”שינוי מתקבל/עבר”.

9. 3 לאחר התקרית

[ ] AAR נערך, RCA הוקצה.
[ ] CAPA עם בעלים/מועדים, D + 14/D + 30 שליטה.
[ ] ספרי משחקים/התראות/מדיניות מעודכנים.

10) אנטי דפוסים

לא ברור ”מי מחליט” * עיכובים ומאמצי שכפול.
IC בשילוב עם P1 - אובדן מנהיגות.
תקשורת ציבורית ללא הסכם עם תקשורת/משפטית.
שחרור ללא שחרור מנהל ושערים * צמיחת CFR.
אין הזמנת תפקידים (מחלה/לעזוב).
”גבורה” במקום התהליך: אנחנו מצילים ידנית, אבל לא לתקן את המעקה.
התפקידים אינם משתקפים בקטלוג CMDB/Service Catalog.

11) הטבעה בכלים

ChatOps: "/who oncall', "/הכרזת שביעית ", "/hape", "/rollback ", "/status עדכון".
ספרייה/CMDB: לשירות יש בעלים, תורן, SLO, לוחות מחוונים, ספרי משחק, חלונות.
התראה כקוד: לכל עמוד יש בעלים וברירת מחדל.
פתרונות GitOps: IC/Release משתקפים בהטבות וכרטיסים.

12) מדדי בגרות חלוקת תפקידים

כיסוי תפקידים בספריות: 100% מהשירותים הקריטיים.
בתורנות SLA: Ack p95 floth 5 min; עמוד Storm p95 תחת שליטה.
לאחר המוות SLA: טיוטה על 72h; השלמת CAPA 85%.
שינוי ממשל:% שינויים בסיכון גבוה עם RFC/CAB -95%.
תקשורת: הידבקות - 95%, שיעור התלונות - QoQ.

13) תבניות מיני

13. 1 RACI לשירות (קובץ repo)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 פרופיל תפקידים (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) השורה התחתונה

המבצעים חזקים כאשר התפקידים שקופים, מועצמים ונבנים לתוך כלים. קטלוג התפקידים, RACI, ממשקים ברורים ומדדים לכל תפקיד הופכים תקריות, משחררים ומשתנים לתהליכים מנוהלים: החלטות מתקבלות במהירות, סיכונים נשלטים, והמשתמשים רואים שירות יציב.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.