GH GambleHub

תפקידים ואחריות במבצעים

1) מדוע למצות תפקידים

הקצאת תפקידים ברורה מפחיתה את MTTA/MTR, מבטלת אזורים אפורים, מאיצה את המשחררים, והופכת את SLO/צייתנית להתרבות. תפקידים = אחריות + סמכות + ממשקים (למי אנחנו כותבים, למי אנחנו מחריפים, אילו החלטות מורשות).

2) מודל RACI בסיסי

ר '(אחראי) - מבצע את העבודה.
א. נושא באחריות הסופית ומקבל החלטות.
מומחה, התייעץ לפני/במהלך.
אני מעודכן על ידי SLA.

דוגמא ברמה העליונה:
תהליךARCאני
תקריות (SEV-1/0)ICP1/P2, SRE, צוות בעלותאבטחה, מוצר, נתוניםMgmt, תמיכה
משחררשחרור מנהל/בעליםDev, פלטפורמה/SREאבטחה, קיו-אייתמיכה, Mgmt
שינויים (RFC/CAB)כיסא מוניתבעל השירותאבטחה, SRE, נתוניםצוותים מושפעים
חלונות תחזוקהבעל השירותפלטפורמה/SREמוצר, תמיכהלקוחות/שותפים
לאחר המוותעופרת RCAבעלות צוות, סופראבטחה, נתונים, מוצרmgmt

3) קטלוג תפקידים (תיאורים ואחריות)

3. מפקד תקרית 1 (IC)

המטרה: להוביל את התגובה לתקרית SEV-1/0.
להכריז על סוו "ב, להקפיא שחרור, לעבור תנועה, להסלים.
משימות עיקריות: ציר זמן, קבלת החלטות, שימור מיקוד, הקצאת משימות, Go/No-Go.
חפצים: כרטיס אירוע, עדכוני SLA, AAR סופי.

3. 2 P1/P2 על קריאה (ראשי/משני)

מטרה: תגובה ראשונית ופעולות טכניות.
P1: מיון, הפעלת ספרי משחק, תקשורת עם IC.
תרמיל 2: גיבוי, שינויים מורכבים, שימור הקשר, בסערות - לוקח תת-זרמים.

3. 3 מהנדס SRE/פלטפורמה

מטרה: אמינות פלטפורמה ומעקה (SLO, התראות, GitOps, אוטוסקלה, DR).
משימות: SLI/SLO, היגיינה מתריעה, שחרור מתקדם, תשתיות כקוד, קיבולת, יכולת תצפית.
במהלך התקרית: אבחון שורש, גלגיליות/פולבקים, השפלת UX מופעלת.

3. 4 בעל שירות/בעל מוצר

מטרה: איכות השירות במובן העסקי.
משימות: הגדרת SLO/סדרי עדיפויות, תיאום שחרור/חלונות, השתתפות Go/No-Go.
תקשורת: להחליט מתי ומה לומר ללקוחות לצד תקשורת.

3. 5 מנהל שחרור

מטרה: החלפה בטוחה.
משימות: תזמור של שחרורים, בדיקה של שערים, כנרת/כחול-ירוק, הערות שחרור, הקפאה לתקריות.

3. 6 יו "ר מונית/מנהל שינוי

מטרה: שינוי ניהול סיכונים

משימות: תהליך RFC, תוכנית/גיבוי, לוח שנה קונפליקט, אישורים בסיכון גבוה.

3. 7 מנהל עופרת/בעיה של RCA

מטרה: תחקיר לאחר התקרית, קאפה.
מטרות: ציר זמן, סיבתיות ראייתית, פעולות לתיקון/מניעה, בקרת D + 14/D + 30.

3. 8 אבטחה (עופרת IR, AppSeck/CloudSeck)

תכלית: תגובת אבטחה ותקרית.
משימות: אירועי אבטחה מיון, סיבוב מפתח, בידוד, זיהוי פלילי, הודעות רגולטוריות, ביקורת תולעת.

3. 9 DataOps/Analytics

מטרה: מהימנות המידע וצינורות.
מטרות: רעננות/איכות (DQ), חוזי נתונים, שושלות, מילוי גב, SLA BI/דיווחים.

3. 10 פינופותComment

מטרה: ערך מנוהל.
משימות: מכסות/גבולות, דוחות $/יחידה, שערי תקציב, אופטימיזציות (יומן כרכים, יציאה, הזמנה).

3. 11 ציות/חוקי

מטרה: ציות רגולטורי וחוזי.
משימות: מונחי הודעה, שמירת/המצאה של ראיות, תיאום של טקסטים ציבוריים.

3. 12 תמיכה/תקשורת

מטרה: תקשורת עם לקוחות/בעלי עניין פנימי.
משימות: דף מצב, לעג לעדכונים, תדירות ובהירות של הודעות, אוסף של משוב.

3. 13 מנהל ספקים/בעל ספקים

המטרה: יחסים עם ספקים חיצוניים (PSP/KYC/CDN, וכו ').
משימות: הסלמה, SLA/OLA, נתיבי גיבוי, תיאום חלונות.

4) תפקידים במשמרת ובהסלמה

הזזה: P1/P2 + IC-of-the-day (לא לשלב עם P1).
הסלמה בזמן: P1 = P2 (5 דקות ללא אק) # IC (10 דקות) # Duty Manager (15 דקות).
שעות שקטות: אותות P2/P3 אינם מתעוררים; סימני אבטחה - תמיד.

5) ממשקים של אינטראקציות (עם מי ואיך)

מנהל שחרור ↔ IC: הקפא/רולבק פתרונות.
תקשורת ↔: עדכון טקסטים ותדירות.
SRE ↔ DataOps: business SLI (הצלחה בתשלום, רעננות נתונים) ב-SLO-gardrails.
↔ הביטחוני: דיווחים על אירועים ביטחוניים, תקופות הודעה.
ספק בעלים ↔ IC: מעמד ספק, החלפה/פולבק.

6) KPI לפי תפקיד (סימני ספסל)

IC: זמן להכריז, תקשורת SLA ציות, MTTR על ידי SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% עוקבים אחר ספרי שעשועים.
SRE/Platform: סיקור SLO, התראה היגיינה,% אוטומטי-rolbacks בהצלחה.
מנהל שחרור: שינוי קצב כישלון, חלונות בזמן, זמן רולבק ממוצע.
עופרת RCA: לאחר המוות עופרת זמן, CAPA השלמה/איחור, לפתוח מחדש 5-10%.
אבטחה: זמן מכוון להכיל, זמן סיבוב סודי/סרט.
DataOps: רעננות SLO הידבקות, אחוזי הצלחה ממלאים.
תקשורת: דיוק מצב, שיעור תלונות/תקרית.
FinOps: $/unit,% QoQ חיסכון, ציות מכסה.

7) תבניות כרטיס תפקידים

7. כרטיס 1 ICC


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. כרטיס 2 P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 כרטיס מנהל שחרור


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) תהליכים והשתתפות תפקידים (סיכום)

תהליךICP1/P2SRE/פלטפורמהבעליםשחרורמוניתאבטחהDataOpsתקשורתספק
תקריתARRCאניאניCCRC
שחרוראניאניCARCCCאניאני
RFC/WindowאניאניRACACCCC
לאחר המוותARRCCאניCCאניאני

א - אחראי, ר - אחראי, ג - התייעץ, אני - הודעתי.

9) רשימות בדיקה

9. 1 הקצאת תפקידים

[ ] לכל תפקיד יש בעלים, מחליף ואזור כיסוי.
[ ] מתוארים האישורים (מה שהחלטות יכולות לקבל).
[ ] חוברות משחקים וקישורים.
[ ] פרסמו SLAs על ידי תגובה/תקשורת.
[ תפקיד ] זמין ב-CMDB עבור כל שירות.

9. 2 משמרת ומסירה

[ כרטיס ] Shift עודכן (תקריות פעילות, סיכונים, חלונות).
[ ] גישות JIT/JEA מאומתות.
[ ] הודעת אקו לתעל ”שינוי מתקבל/עבר”.

9. 3 לאחר התקרית

[ ] AAR נערך, RCA הוקצה.
[ ] CAPA עם בעלים/מועדים, D + 14/D + 30 שליטה.
[ ] ספרי משחקים/התראות/מדיניות מעודכנים.

10) אנטי דפוסים

לא ברור ”מי מחליט” * עיכובים ומאמצי שכפול.
IC בשילוב עם P1 - אובדן מנהיגות.
תקשורת ציבורית ללא הסכם עם תקשורת/משפטית.
שחרור ללא שחרור מנהל ושערים * צמיחת CFR.
אין הזמנת תפקידים (מחלה/לעזוב).
”גבורה” במקום התהליך: אנחנו מצילים ידנית, אבל לא לתקן את המעקה.
התפקידים אינם משתקפים בקטלוג CMDB/Service Catalog.

11) הטבעה בכלים

ChatOps: "/who oncall', "/הכרזת שביעית ", "/hape", "/rollback ", "/status עדכון".
ספרייה/CMDB: לשירות יש בעלים, תורן, SLO, לוחות מחוונים, ספרי משחק, חלונות.
התראה כקוד: לכל עמוד יש בעלים וברירת מחדל.
פתרונות GitOps: IC/Release משתקפים בהטבות וכרטיסים.

12) מדדי בגרות חלוקת תפקידים

כיסוי תפקידים בספריות: 100% מהשירותים הקריטיים.
בתורנות SLA: Ack p95 floth 5 min; עמוד Storm p95 תחת שליטה.
לאחר המוות SLA: טיוטה על 72h; השלמת CAPA 85%.
שינוי ממשל:% שינויים בסיכון גבוה עם RFC/CAB -95%.
תקשורת: הידבקות - 95%, שיעור התלונות - QoQ.

13) תבניות מיני

13. 1 RACI לשירות (קובץ repo)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 פרופיל תפקידים (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) השורה התחתונה

המבצעים חזקים כאשר התפקידים שקופים, מועצמים ונבנים לתוך כלים. קטלוג התפקידים, RACI, ממשקים ברורים ומדדים לכל תפקיד הופכים תקריות, משחררים ומשתנים לתהליכים מנוהלים: החלטות מתקבלות במהירות, סיכונים נשלטים, והמשתמשים רואים שירות יציב.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.