תקרית ותגובת תאונה
(סעיף: מבצעים וניהול)
1) הגדרות ומטרות
תקרית - אירוע שמפר SLO/ביטחון/ציות או יוצר סיכון ללקוחות, כסף, נתונים, מוניטין.
מטרת התגובה: לשקם במהירות את השירות, למזער נזקים, לתקן ראיות, לתקשר בשקיפות ולמנוע חזרה.
עקרונות מפתח
בטיחות תחילה: הגנה על אנשים/נתונים/כסף על פני תכונות.
גרון אחד להיחנק: מפקד תקרית אחד (IC) מקבל החלטות.
ניתן לפעול כעת: כל השערה מתבצעת לאחר בדיקה/פעולה.
הראיות חשובות: הכל מחובר, חפצים חתומים, ציר הזמן מפורט.
2) סיווג (חומרה ועדיפות)
הפרת SLO, כלל התראה, דו "ח ידני, אירוע משפטי (DPO/CCO).
3) תפקידים ואחריות (RACI)
מפקד אירוע (א) - מנהיג אירוע, הגדרת משימות, קבלת החלטות, שינויי IC לתקריות ארוכות.
טכנולוגית עופרת (R) - אבחון טכני/תיקונים, תיאום SRE/הנדסה.
Comms Lead (R) - כותב עדכוני סטטוס (בפנים/בחוץ), בעליו של דף הסטטוס.
פרוטוקול, ציר זמן, אוסף חפצים.
ביטחון/משפטי (C/A למקרים ביטחוניים) - הערכת סיכונים, הודעות חובה.
תמיכה בלקוח (C) - תבניות תגובה, ניתוב כרטיסים.
קשר שותף (C) - תקשורת עם ספקים/דיירים.
ניהול (אני) - מידע, החלטות עסקיות (הלוואות/פיצויים).
4) 15 דקות ראשונות (תבנית)
1. הקצה IC ופתח כרטיס אירוע (ערוץ צ 'אט, גשר וידאו, Jira/Tracker).
2. להקצות סב ולתקן את תסמין SLO (מה בדיוק מופר).
- כולל ריצות/רונות: מפסק מעגל חשמלי, מצערת, החלפת מסלול, פרומו הפסקה;
- במקרה של פשרה - מתג-להרוג פונקציות רגישות.
- 4. פקודות: Tech Lead - אבחון; תקשורת - ”אחיזה טכנית” (10-15 דקות - העדכון הראשון).
- 5. זיהוי השערות (שלוש מקסימום), הקצאת בעלים, הגדרת טיימרים לאימות (5-10 דקות).
- 6. איסוף חפצים: תמונות של מדדים, תצורות, שחרור חשיש, יומנים עם "trace _ id', קבלות.
5) שעה ראשונה (תבנית)
תקשורת v1 (15-20 דקות): עובדה, להגיע, סימפטומים, מה שאנחנו עושים, עדכון הבא. אין ספקולציות.
גבולות תקרית: אילו אזורים/דיירים/ערוצים/גרסאות מושפעים.
בקרת נזקים: פקקים/הגבלות זמניות, ניתוק אינטגרציה ”רועשת”, הפעלה של מצב הידרדרות.
זיהוי פלילי: להקפיא סיבובי יומן, להגן על חפצים (תולעת/חתימות).
מפת דרכים התאוששות: T + 30/T + 60 עם נקודות בדיקה.
6) תקשורת ועמוד מצב
מרווחים פנימיים: P1 - כל 15 דקות, P2 - 30-60 דקות.
חיצונית: סטטוס עמוד/דיירים/שותפים SLA.
- מה שאתה יכול לראות: ”עם X: YY UTC, העלייה בכשלים בקופה באזור האיחוד האירופי (p95> 250 ms)”
- מושפע: ”מפעילי A/B/C ~ 40% מהתנועה”
- מה שאנחנו עושים: "כלל מסלול חלופי, פרומו חונק; אנחנו עובדים עם המפרנס" PSP-1
- נתונים/מועדים: ”העדכון הבא בעוד 15 דקות”
- פיצויים: ”החל רישומי אשראי לפי SLA לאחר סגירת התקרית”
7) ספרי משחק (אזכורים עבור iGaming/fintech)
Mismatch (showcase weephout): נכות בכוח המטמון, ”fx _ version _ rule _ revision” פיוס, הקפאת פרומו דינמית, פיצוי על אי התאמת מדיניות.
WebhalLag (שותפים/משתייכים): עובדים במדד, קבוצה הולכת וגדלה, מגשים מחדש, מכסה זמני על מנויים חדשים.
שלילת תשלומים/PSP: החלפה ל PSP גיבוי, הפחתת פסקי זמן ללקוח, ניקוי תור ידני, עסקאות אפורות בהסגר.
דריפט RTP: הפסקת בונוס, בדיקת תשלום/גירסה, ניטור סיומת חלון, צילום פרופיל RTP.
הונאה ספייק: הידוק מהירות/מגבלות, כולל בדיקת KYC נוספת, בידוד קוהורטות חשודות, סקירת זכיות גבוהות ידנית.
חשיפת נתונים/PII: בידוד המערכת, הודעת DPO/Legal, מלאי של רשומות מושפעות, הודעות רגולטוריות לפי ציר זמן.
8) כלים ורונות (פעולות אוטומטיות)
Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, אפשר מצב בטוח.
מעקות משמר: הגנה מפני ”אוכף” - גלגולים מוגבלים, בולי עץ נחתמים, כל פעולה ↔ IC/Scribe.
Provability: חתימות DSSE, חשיש מצולם, פרוסות יומן מרקל.
9) סיום האירוע
קריטריונים: SLO שוחזר, תור נגאל, נתונים/כסף התפייס, סיכונים נסגרו, תקשורת נשלחה.
טקס סיום: עדכון מצב סופי, ציר זמן קבוע, רשימת השפעות, השערות ראשוניות של סיבות, תאריך שלאחר המוות שהוקצה.
10) לאחר המוות (אין חיובים)
מונח: P1 - בתוך 3 ימי עבודה; פי-2-5 ימי עבודה.
תוכן: עובדות/ציר זמן, סיבות שורש (5 WHYS/FRAM), השפעה (SLO, פיננסים, לקוחות), מה עבד/לא, פריטי פעולה (בעלים, מונח, אפקט מדיד).
בדיקת יעילות: לאחר 30-60 יום - סקירה של ביצועים ומדדים (חזרות, MTTR, רעש התראה).
11) Metrics Management and SLOS
MTTD/MTTA/MTTR, שינוי שיעור הכישלון, זמן לתקשורת v1,% מותרים אוטומטית (רונות).
רעש התראה: אחוז של אותות לא רלוונטיים, עמודים לכל משמרת בכוננות.
תקריות חוזרות, פרופורציה של חזרות בעוד 90 יום.
פרופורציה של גמור/סגור בזמן.
תגובות SLO: P1 - תקשורת ראשונה 15 דקות; MTTR על 60 דקות; חפצים שלמים = 100%.
12) חוק/ציות/פרטיות
הודעות משפטיות: תזמון של רגולטורים מקומיים לדליפות/תקריות.
מזעור PII: גישה לראשית רק דרך דקירות מאושרות; tochenization/masking.
אחסון חפצים: יומני תולעת, תקופת השמירה לפי תחום השיפוט; בקרת גישה (RBAC/ABAC, JIT).
מקבילות: סל "ד חוזיות, הליך הסלמה, קבלות הליכים.
13) ארגון החובה וההסלמה
24 × 7 בכוננות: סיבוב אחר תפקיד (SRE, App, דאטה, אבטחה, תשלומים).
מטריצת הסלמה: מי עבור אזורים/מוצרים/ספקים; אנשי קשר כפולים (צ 'אט/קול/SMS).
תרגילים (GameDays): סימולציות - טיפת PSP, מפולת מגש מחודשת, יישור מחירים, פשרת מפתח, כשל אזורי.
14) לוחות מחוונים של אירועים
חום (עכשיו): מצב SLO, p95/p99, מפה של אזורים/דיירים, תור משימה, חפצים שנאספו/לא.
היסטוריה: מגמות לפי סוג האירוע, יעילות מנות, לגרום לחזרה.
בקרת איכות: שלמות ציר זמן, ”כיסוי” של פוסט-מורטמים, תקשורת SLA.
15) רשימת מימושים
[ ] לאשר סולם SEV והפעלת SLO.
[ ] הקצאת תפקידים (IC/Tech/Comms/Scribe/Sec/Legal) וסיבובים 24 × 7.
[ ] השק תבנית כרטיס תקרית אחת ועמוד סטטוס.
[ ] תאר ספרי משחק (Pricise Mismatch/WebhealLag/Piples/RTP/FII).
[ ] ליישם רונות עם ביקורת וכפתור אדום.
[ ] לאפשר איסוף תולעת/חתימות/חפצים.
[ נוהל תקשורת ] (פנימי/חיצוני), עדכוני SLA.
[ ] תהליך שלאחר המוות ותבניות; KPI של פריטי פעולה הוצאה להורג.
[ ] GameDays חודשי; סקירה רבעונית של מגמות אירוע.
[ ] לוח מחוונים IR (MTTA/MTTR/Noise/Reverse/Comms SLA).
16) FAQ
למה ”IC לבד”?
נקודת החלטה אחת מסירה כאוס ומאיצה תגובות.
מתי להכריז בפומבי?
ברגע שתהיה עובדה מאומתת ותוכנית ייצוב. הערכת מועדים רגולטוריים.
מה חשוב יותר - תיקון או דו "ח?
ראשית, התאוששות וביטחון. במקביל, אוסף החפצים. דיווח - לאחר ייצוב.
האם זה אפשרי לעשות אוטומטי להכל?
לא, אבל רונות סוגרות צעדים ”תכופים ופשוטים”. השאר הוא דרך ספרי משחק ברורים ואימונים.
תגובת תקרית חזקה היא לא רק על פג 'ר דיוטי וערוץ הצ' אט. זוהי משמעת של תפקידים, 15 דקות ראשונות מהירות, רונות מבוקרות, תקשורת שקופה, זיהוי פלילי עם הנחות וחובה לאחר המוות. עם מעגל זה, אתם מפחיתים את MTTR, מגנים על כסף ונתונים, ומגבירים את ביטחון הלקוחות והרגולציה.