GH GambleHub

הסלמה של תקריות

1) מטרה ועקרונות

הסלמת אירוע היא התהליך המנוהל של משיכה מהירה של התפקידים הנכונים והמשאבים כדי למזער את ההשפעה על משתמשים ומדדים עסקיים.

עקרונות מפתח:
  • מהירות חשובה יותר מאידיאליות. עדיף להכריז על התקרית מוקדם יותר ולמנוע הסלמה מאשר לאחר.
  • פיקוד מאוחד. אחד האחראים לפתרון הוא מפקד האירוע.
  • שקיפות. סטטוסים ברורים וערוצי תקשורת לבעלי עניין פנימי וחיצוני.
  • יכולת תיעוד. כל הצעדים, ההחלטות וצירי הזמן נתפסים לביקורת ושיפור.

2) דרגת חומרה (רמות SEV/P)

קנה מידה לדוגמה (התאמה לתחום תחום/תחום שיפוט):
  • SEV-0/P0 (קריטי) - אי זמינות מוחלטת של פונקציית המפתח (התחברות/תשלום), דליפת נתונים, סיכון משפטי. זימון מיידי של כל הליבה בכוננות, להקפיא משחרר.
  • SEV-1/P1 (גבוה) - p95/p99 דלדול, נתח מוגבר של שגיאות/כשלים בתהליך המפתח, אי נגישות של אזור/ספק.
  • SEV-2/P2 (בינוני) - השפלה חלקית לקוהורטה מוגבלת (אזור, מפרנס), יש מעקף.
  • SEV-3/P3 (נמוך) - לא קריטי עבור המשתמש, אבל דורש תשומת לב (עיכוב רקע ETL, דו "ח איחור).
מטריצת קביעת רמה (מפושטת):
  • (Lasion radius (כמה משתמשים/מחלף) x wardation × sensitivity (regulation/PR) * רמת SEV.

3) תהליך KPI

MTTD (זמן גילוי) - מתחילת האירוע לאות הראשון.
MTTA (זמן קבלת) - איתות להכרת IC.
MTTR (זמן התאוששות) - עד הפונקציה SLO/משוחזרת.
הסלמה Latency - מאישור לחיבור התפקיד/פקודה הרצויה.
קצב פתיחה מחדש - פרופורציה של תקריות נפתח מחדש לאחר ”נפתר”.
תקשורת SLA - ציות למרווחים של עדכונים חיצוניים/פנימיים.

4) תפקידים ואחריות (RACI)

מפקד האירוע (IC): בעל הפתרון, קובע את הרמה, התוכנית, ההקפאה, ההסלמה, ביטול ההסלמה. לא כותב תיקונים.
טי-אל: אבחון טכני, היפותזות, תיאום מהנדסים.
תקשורת עופרת (CL): דפי מצב, לקוח ותקשורת פנימית, תיאום עם חוקי/יחסי ציבור.
סופר: הקלטה מדויקת של עובדות, צירי זמן, החלטות שהתקבלו.
קשרים: נציגים של ספקים/צוותים חיצוניים (תשלומים, KYC, אירוח).
מהנדסים בכוננות: ביצוע התוכנית, השקת ספרי משחק/רולבקס.

להקצות לוחות זמנים החובה וגיבויים לכל תפקיד.

5) ערוצים וחפצים

ערוץ חדר מלחמה (ChatOps) הוא נקודה אחת של קואורדינציה (Slack/Teams) עם תבנית של אנוטציות אוטומטיות (גרסאות, דגלים, קנריות).
גשר וידאו עבור SEV-1 +.
כרטיס תקרית (1-pager): זיהוי, SEV, IC, משתתפים, היפותזה/אבחון, צעדים, ETA, מצב, השפעה, קישורים לגרפים.
עמוד מצב: ציבורי/פנימי; לוח הזמנים של עדכונים קבועים (למשל, כל 15-30 דקות עבור SEV-1 +).

6) תיבות זמן ומרווחים סטנדרטיים

(T0 (min. 0-5: IC מוקצה, SEV מוקצה, להקפיא משחררים (אם יש צורך), חדר מלחמה פתוח.
T + 15 min: הודעה ציבורית/פנימית ראשונה (מה מושפע, מעקף, חלון עדכון הבא).
T + 30/60 min: הסלמה של השלב הבא (פלטפורמה/DB/אבטחה/ספקים), אם אין דינמיקה יציבה.
עדכונים קבועים: SEV-0: כל 15 דקות; SEV-1: כל 30 דקות; SEV-2 +: כל שעה.

7) כללי הסלמה אוטומטית (מדיניות הדק)

נרשם כקוד ומחובר לניטור/התראה:
  • תקציב שגיאת שרפה מעל סף בחלונות קצרים וארוכים.
  • קוורום של דגימות חיצוניות: Windows 2 region HTTP/TLS/DNS Delegradation.
  • Business SLI (הצלחה בתשלומים/רישום) נופל מתחת ל-SLO.
  • חתימות אבטחה: חשד להדלפה/פשרה.
  • אות ספק: webhook סטטוס ”הפסקה גדולה”.

8) תהליך מגילוי לפתרון

1. הכרזת תקרית (IC): SEV, סיקור, הקפאה, השקת ספר מהלכים.
2. אבחון (TL): היפותזות, בידוד רדיוס (אזור, ספק, תכונה), בדיקות (DNS/TLS/CDN/DB/caches/bus).
3. פעולות מקלות (ניצחונות מהירים): rollback/canary extreme, desgradation flag feature, discover affault, discover affain.
4. תקשורת (CL): דף מצב, לקוחות/שותפים, יחסי ציבור משפטיים, עדכונים על לוח הזמנים.
5. אישור התאוששות: סינתטיים חיצוניים + מדדים אמיתיים (SLI), הסרת הקפאה.
6. דה-הסלמה: ירידה ב-SEV, מעבר לתצפית N דקות/שעות.
7. סגירה ו-RCA: הכנה שלאחר המוות, פריטי פעולה, בעלים ותזמון.

9) עבודה עם ספקים חיצוניים

דוגמאות משלך לספקים ממספר אזורים + רישום מראה דוגמאות של בקשות/שגיאות.
הסכמי הסלמה (מגעים, SLAs תגובה, עדיפות, סטטוס ווק).
כשל אוטומטי/העברת תנועה באמצעות ספק SLO.
בסיס ראיות: ציר זמן, בקשות/תגובות דגימה, גרפי latency/שגיאה, זיהוי כרטיס ספק.

10) רגולציה, בטיחות ויחסי ציבור

Security/P0: בידוד, אוסף חפצים, מיזעור הגילוי, הודעות חובה (פנימי/חיצוני/רגולטור).
חוקי: אישור ניסוח של עדכונים חיצוניים, חשבונאות עבור SLAs/קנסות חוזיים.
PR/שירות לקוחות: תבניות תגובה מוכנות, Q&A, פיצויים/קרדיטים (אם ניתן).

11) תבניות הודעה

ראשי (T + 15):
  • "אנו חוקרים תקרית SEV-1 המשפיעה על תפקוד [/אזור ]. סימפטומים: [ ] לזמן קצר. הפעלנו את [ התיאור ]. העדכון הבא הוא בשעה [ ]"
עדכון:
  • "אבחנה: [ השערה/אישור ]. פעולות: [ החלפת הספק/שחרור/שחרור מגולגל/התאפשר ] פירוק. ההשפעה הצטמצמה ל [ %/קוהורטה ]. העדכון הבא הוא [ זמן" ] ‏
פתרון:
  • "האירוע SEV-1 נפתר. סיבה: [ שורש ]. זמן התאוששות: [ MTTR ]. הצעדים הבאים: [ תיקון/צ 'קים/שעון N ] שעות. לאחר המוות - [ מתי/איפה ]"

12) ספרי משחק (מופת)

הצלחה נופלת של תשלומים: להפחית את הנתח על ספק A, להעביר X% ל B; אפשר פירוק-תשלומים-UX כולל רטראס בגבולות; הודע לפיקוד הסנפיר.
גידול P99 API: לצמצם את הקנרית של הגרסה החדשה; לכבות תכונות כבדות; הגדלת מטמון-TTL; בדוק אינדקסים/חיבורים DB.
בעיית DNS/TLS/CDN: וודא תעודות/שרשרת; עדכן את התקליט החלפת המתנה CDN לבנות מחדש את המטמון.
חשד ביטחוני: בידוד צומת, סיבוב מפתח, מתן מכלאות MTLS, איסוף חפצים, הודעה משפטית.

13) דה-הסלמה ו ”נפתר” קריטריונים

תקרית יורדת אם:
  • SLI/SLO יציב במרווחי אזור ירוק-N;
  • פעולות מקלות והתבוננות בוצעו - ללא רגרסיה;
  • עבור כיתת אבטחה - וקטורים מאושרים סגורים, מפתחות/סודות מסתובבים.

סוגרים - רק לאחר תיקון ציר הזמן, בעלי פריטי פעולה ומועדים.

14) לאחר המוות (לא ענישה)

מבנה:

1. עובדות (ציר זמן, מה שהמשתמשים/מדטים ראו).

2. גורם שורש (טכני/תהליך).

3. מה שעבד/לא עבד בהסלמה.

4. אמצעי מניעה (מבחנים, התראות, גבולות, ארכיטקטורה).

5. תוכנית פעולה עם מועדים ובעלים.

6. קישור לתקציב שגיאה ושינוי תהליכים/SLOS.

15) מטריצות לבגרות תהליך

אחוז התקריות דווח לפני תלונות המשתמש.
MTTA לפי רמות SEV; זמן לחבר את התפקיד הרצוי.
ציות למרווחי עדכון (Comm SLA).
אחוז התקריות נפתר על ידי ספרי משחק ללא ”יצירתיות” ידנית.
ביצוע של פריטי פעולה לאחר המוות בזמן.

16) אנטי דפוסים

”שמישהו יעשה משהו”, בלי תפקידים חשמליים.
פוליפוניה בחדר המלחמה היא מחלוקת על גרסאות במקום פעולות.
הצהרה מאוחרת. איבוד זמן לאיסוף אנשים.
אין הקפאה ושחרור הערות - שינויים מקבילים מסווה את הסיבה.
חוסר בתקשורת חיצונית - הסלמת תלונות/סיכון יחסי ציבור.
סוגרים ללא נתיחה שלאחר המוות ומעשים - אנחנו חוזרים על אותן טעויות.

17) IC רשימת בדיקות (כרטיס כיס)

[ ] להקצות סב "ב ולפתוח את חדר המלחמה.
[ ] להקצות TL, CL, Scribe, לבדוק בהווה בכוננות.
[ ] אפשר שחרור-הקפאה (אם SEV-1 +).
[ ] אשר מקורות אמת: לוחות מחוונים, סינתטיים, יומנים, איתור.
[ ] קבל פעולות מקלות מהירות (rollback/flags/influver).
[ ] עדכונים קבועים.
[ קריטריונים ללכידת ] לפתרון וניטור לאחר התאוששות.
[ ] ליזום לאחר המוות ולהקצות בעלי פריטי פעולה.

18) הטמעת פעולות יומיומיות

ימי משחק: סימולציות על תרחישי מפתח.
קטלוג חוברות מהלכים: מבוססות, נבדקות, עם פרמטרים.
כלים: ChatOps מצווה ”/להכריז ”, ”/page ”, ”/status ”, ”/rollback”.
אינטגרציות: ticketing, status page, post-mortems, CMDB/service calog.
משא ומתן עם תקציב SLO/שגיאה: הפעלת הסלמה אוטומטית והקפאת כללים.

19) השורה התחתונה

הסלמה היא משמעת מבצעית, לא רק שיחה לדיילת. רמות SEV נקיות שהוקצו על ידי ICC, ספרי משחק מוכנים, עדכון גמישות, ואינטגרציה עם מדדי SLO ומדיניות תקציב הופכים אש כאוטית לתהליך שניתן לניהול עם תוצאה צפויה - שיקום שירות מהיר, סיכון יחסי ציבור/רגולטורי מינימלי ושיפורים מערכתיים לאחר כל תקרית.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.