ניהול אירועים
(סעיף: טכנולוגיה ותשתיות)
תקציר
ניהול אירוע הוא תהליך שניתן לחזור עליו במהירות כדי להחזיר את ערך המשתמש ולמזער את הנזק העסקי. תמיכה - תפקידים ברורים (Incident Manager, Tech Lead, Comms), שערי SLO, הסלמה, תהליכי ChatOps,
1) מטרות ועקרונות
מהירות ובטיחות: אבחנה מהירה = ייצוב בטוח = = התאוששות ממושכת.
הבעלים הבלעדי - מנהל התקריות המוקצה (IM) מקבל החלטות תהליכים.
תקשורת כמוצר: עדכונים צפויים לבעלי עניין ומשתמשים.
דעות: SLO/metrics/trails/logs הם מקור האמת.
תמים: ניתוח סיבות ללא האשמות אישיות; להתמקד בשיפורים במערכת.
2) סיווג תקריות (חומרה/פגיעה/דחיפות)
חומרה (דוגמה):- SEV1 (קריטי): נזק חמור להכנסות/TTW/תשלומים,> 20% מהמשתמשים או אזורים שלמים; איום SLA לקוי/PII.
- SEV2 (גבוה): השפלה חלקית של זרימות מפתח (הפקדה/הימור/השקה של משחקים), השפעה 5-20%.
- SEV3 (בינוני): השפלה בולטת של שירותים משניים, יש מעקף.
- SEV4 (נמוך): השפעה מינורית, מוגבלת, אין השפעה על SLO/SLA.
השפעה: מי מושפע (כל/אזור/דייר/ערוץ). דחיפות: דחיפות קצב השרפה (fast-burn/slow-burn בתקציב שגיאה).
3) אופן חיים של אירוע
1. איתור - אות מהתראות/SLO/סינתטיים/דיווחים.
2. אישור בכוננות מאשר קבלת פנים, הקצה מסרים.
3. ציון Triage - SEV/Impact, אוסף השערות, תגלית חדר מלחמה.
4. מקטין - ייצוב (החלפת מסלול/rollback/phichflages/scaling).
5. תקשורת - עדכוני מצב רגילים (בפנים/בחוץ).
6. התאוששות - התאוששות מדדי SLO/עסקי מלא.
7. הקלטה מקרוב של כרונולוגיה, אוסף של חפצים, PIR (RCA + פריטי פעולה).
4) תפקידים ואחריות (RACI)
מנהל תקריות (IM) - בעל תהליך, מקצה תפקידים, מנטר את הזמן, מקבל החלטות תהליך (R).
עופרת טכנית (TL) - מוליך אבחון/היפותזות/תיקונים, מהנדסי קואורדינטות (A/R).
תקשורת (Communications) - עדכוני מצב, חיבור עם תמיכה/עסק/יחסי ציבור, דף מצב (R).
סקריבה - פרוטוקול (ציר זמן, החלטות שהתקבלו, קישורים, חפצים) (ר).
בעלי עניין - מוצר/תשלומים/ספקי משחקים/אבטחה (C/I).
מינימום לכל SEV1: IM + TL + Comms + Scribe. זה מותר לשלב תפקידים על SEV2.
5) ChattOps War-Room
ערוצים בודדים: '# תקרית-warroom- <id>' (עבודה) '# תקרית-סטטוס' (עדכונים בלבד).
פקודות תבנית: '/תחילת תקרית ', '/עדכון מצב', '/call <בעלים> ', '/rollback', '/cape ', '/scale + N'.
הרובוט מושך את ההקשר: שחרורים אחרונים, לוחות מחוונים, התראות קשורות, עקבות למופת, מזימות תלות.
כללי תקשורת: בקצרה, על העובדות, דובר אחד (TL), מתון IM.
6) טריגרים ושערים
שערי SLO: כווייה מהירה/איטית, ירידת תשלום המרה, TTW p95> סף, p99 API grough, תורים תשלום עולים באש.
פעולות אוטומטיות: לעצור את הקנרית, להתגלגל לאחור, לאפשר מצב דיגרד (מגביל פונקציות), המאפשר סינתטיקה בתדר גבוה.
הקפאה: כל המשחררים/רגלי נדידה לפני ייצוב ו PIR.
7) תרחישים טיפוסיים (דפוסי ריצה)
א) תשלומים: עלייה בפסקי זמן/כשלים ב ־ PSP
1. תפסיק לקדם ולהקפיא את שחרור לולאת התשלום.
2. החלף את מסלול ה ־ PSP אל המתנה 1, העלה את הזמן/מגש מחדש לפי המדיניות.
3. פיוס של עסקאות לא שלמות, חזרה עם מפתחות אידמפוטנטים.
4. תקשורת תקשורת # תמיכה: האם אתה עובד מילואים? זמן הגעה משוער.
B) API p99 view ו ־ 5xX לאחר השחרור
1. Rollback (כחול ירוק/כנרית = יציב).
2. בדוק להיט מטמון, עומק תור, מסד נתונים/נקודות חמות ספק משחק.
3. הגדלה זמנית, הגבלת תכונות כבדות דרך דגלי תכונה.
הספק המשחק אינו זמין
1. העבר את התנועה לאולפנים/משחקים זמינים, הצג כרזה סטטוס.
2. להפעיל בדיקות סינתטיות כל 30-60 ש "ח.
3. תסכים על פיצוי/בונוסים (לפי מדיניות) - הוסף ל-PIR.
D) דליפה/חשד PII
1. בידוד רכיבים, ביטול מפתח/אסימון, אוסף רישומים (WORM).
2. תקשורת משפטית/יישור רגולטורי.
3. פעולות שלאחר אירוע: סיבוב סודי, מיסוך, גישה.
8) תקשורת (פנימי/חיצוני)
תדר עדכון: SEV1 - כל 15-30 דקות, SEV2 - 30-60 דקות.
תבנית מצב פנימית: מה שבור: "הפקדות באמצעות PSP-X:- מושפע: ”TR/BR, ~ 18% ממשתמשי זרם”.
- כשזה התחיל: ”12:07 EET, SEV1.”
- מה שאנחנו עושים: ”מעבר מסלול PSP-Y, retrayes/rate cap מופעל”.
- העדכון הבא: ”בעוד 20 דקות”.
- צור קשר: ”IM @ duty-im, TL @ oncall-לשלם”.
מעמד ציבורי (עמוד/רשתות חברתיות) - מקוצר, ללא מח "ש ופרטים מיותרים, עם זמן הגעה משוער וקישור לעדכונים נוספים.
9) אוסף חפצים וביקורת
ציר זמן אירוע (דיוק דקה), גרסאות שירות, דגלים, שינויים בהגדרות.
תמונות של לוחות מחוונים, מסלולים משוערים (trace_id), יומנים ”לפני/במהלך/אחרי”.
קישורים לכרטיסים, יחסי ציבור, שחרור, ריצות.
דיווח תקשורת (מתי/עד מה).
הכל מסתכם בכרטיס אירוע.
10) סגירת מעגל ו ־ PIR (סקירה לאחר תקרית)
פורמט PIR (קצר):- סיכום: מה קרה, קנה מידה, משך זמן, סוו.
- השפעה: משתמשים/אזורים, SLO/SLA, Fin. Effect.
- ציר זמן: בפירוט, לפי דקה.
- שורש: טכני + ארגוני (מדוע לא אותר קודם לכן).
- גילוי והגנות: מה עזר/נכשל (התראות, סינתטיקה, פישפלאגים).
- פריטי פעולה: משימות ספציפיות, בעלים, מועדים (וכיצד לבדוק את האפקט).
- לקחים נלמדים: מה שאנו משנים בתהליך/ארכיטקטורה/יכולת תצפית.
אין חיובים, עובדות מקסימליות, מעקב חובה אחרי 2-4 שבועות של בדיקת פריטים שהושלמו.
11) אמינות תהליך Metrics
MTTD - זמן משמעותי לגלות
MTTA (... תודה) - לפני אישור בכוננות.
MTTR (... ) - עד SLO ישוחזר.
שינוי שיעור הכישלון -% של שחרור כתוצאה מאירועים.
שיעור התקרית על ידי SEV, הפצה על ידי תחום (תשלומים/משחקים/אינפרה).
איכות התראה: פרופורציה של רעש/שווא, זמן לפעולה לאחר התראה.
תקשורת-SLA: ציות לתדירות של עדכוני מצב.
12) אינטגרציה עם SLO ומשחררת
שערים בתקליטור: קידום קנרית רק עם פרוקסי SLO ירוקים (זמינות, p95, conv, TTW).
הקפאת הליכים: כאשר fast-burn/SEV1 - עצור משחרר לפני PIR.
אנוטציות אוטומטיות בגרפים: שחרור/דגלים/הגירה נראים על לוחות מחוונים.
13) רגולציה וציות
מסווה/כינוי ברישומים/רצועות, חנויות ביקורת תולעת, בקרת גישה.
Regionality: אל תיקח את נתוני המשתמש מחוץ לתחום השיפוט המותר.
דיווח: אותיות/הודעות מפורסמות לרגולטורים - תבניות ותהליך הסלמה.
14) למידה ומוכנות (יום משחק)
תרגילים רבעוניים: ”PSP drop”, ”ספק המשחק לא זמין”, ”p99 surge”, ”דליפת מפתח”.
טיימרים על MTTA/MTR, רטרו על פעילות גופנית.
עדכון ריצות ואנשי קשר, בדיקת פקודות צ 'טופ.
15) רשימת מוכנות (לפני המקרה)
1. חוקי SEV ומטריצת הסלמה הסכימו.
2. מוקצה לסיבובים תורניים, IM/TL/Comms/Scribe.
3. ריצות לתרחישי מפתח (תשלומים, משחקים, מסדי נתונים, מטמונים, תורים).
4. כרטיס SLO והתראות קצב צריבה, דף מצב.
5. פקודות, הקשר אוטומטי, תבניות מצב.
6. תבניות PIR וכרטיסי אירוע.
7. יום משחק רגיל ותיקונים של זכויות/מגע.
8. מדיניות הקפאה ו ”כפתור אדום” (rollback/kill-switch).
16) תרופות אנטי ־ פטריות
אין הודעה אחת, ”הקהל מוביל” תוהו ובוהו ועיכובים.
חוסר בשערי SLO = איתור מאוחר, התראות רועשות.
שחרור בזמן תקרית ללא הקפאה.
בולי עץ ושבילים אינם מספיקים, אין חפצים * PIR חלש.
תרבות מאשימה = טעויות נסתרות, פחד מהסלמה.
תקשורת מעוררת השראה * אובדן אמון עסקי/משתמש.
17) תבניות (העתק לוויקי שלך)
כרטיס אירוע (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) עדכון מצב (פנימי)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (cap)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
תקציר
ניהול אירועים חזק הוא מבנה + משמעת: תפקידים מוסכמים מראש, שערי SLO, עבודות ריצה, תקשורת שקופה ו-PIR ”לא מזיק”. לולאה זו מפחיתה את MTTA/MTR, מורידה את עלות ההשבתה, בונה את אמון המשתמש ומאפשרת לך לשחרר נועז יותר - אך בבטחה.