מטריצת הסלמה
1) מטרת מטריצה
מטריצת ההסלמה היא כללים אחידים על מי מתחבר ומתי, כך שתקריות במהירות לעבור מתוהו ובוהו לתהליך מנוהל. היא קובעת:- רמות SEV והקריטריונים שלהם;
- timins (זיהוי של ack * * exclosion reption);
- תפקידים/ערוצים לכל שלב
- יוצאים מן הכלל (אין שעות שקטות לביטחון וציות)
- צרור עם חוברות משחק ודף סטטוס.
2) סיווג לפי חומרה (SEV)
ציין מספרי מטרה לתחום שלך ו ־ SLO.
3) מי/מתי/איפה המטריצה הבסיסית
4) עץ ההסלמה המכריע (מהות)
1. כל השפעה מאושרת על SLO?
□ כן: להקצות IC, להכריז SEV, לפתוח חדר מלחמה.
□ לא: כרטיס/תצפית, אין דף.
2. יש לך איי-סי-קיי בזמן?
□ כן: אנו ממשיכים לאורך ספר המהלכים.
▪ לא: P2 # IC # DM (סולם בזמן).
3. אבטחה/דליפה/מח "ש?
□ תמיד אבטחה אינפרא-משפטית, תקשורת ציבורית מתואמת.
4. ספק חיצוני?
□ הסלמה בעלים של ספק, החלפת מסלול, תיקון במצב.
5) תפקידי הסלמה ואחריות (קצר)
P1 (ראשי): מיון, התחלה של ספר מהלכים, קישור לIC.
P2 (משני): גיבוי, פעולות מורכבות, שימור הקשר.
מכריז SEV, מחליט להקפיא/rollback, שומר על קצב.
Duty Manager: מסיר מנעולים, מחלק מחדש משאבים, מקבל החלטות ארגוניות.
תקשורת: עמוד מצב, עדכוני SLA.
בידוד, זיהוי פלילי, הודעות משפטיות.
בעל ספקים: ספקים חיצוניים, החלפה/גיבוי.
6) מדריכים זמניים (ציוני דרך)
SEV-1/0: איי-סי-קיי 5, הכרז על קיר 10, תקשורת ראשונה 15, עדכונים q = 15-30.
סולם אקסטלטור: P1 = P2 (5 מטרים) # IC (10 מטרים) # Duty Manager (15 מטרים) # Exec on-call (30 מטרים).
אבטחה: ללא עיכובים ו ”שעות שקט”, מעדכן q = 15 מ '.
7) ניתוב וקטע
על ידי שירות/אזור/דייר: מפתח ניתוב = ”שירות + אזור + דייר”.
קוורום של גשושיות: הסלמה רק אם מאושרים 2 מקורות בלתי תלויים (סינתטיים מ-2 אזורים + RUM/business SLI).
דדאפ: התראת אמן אחת במקום עשרות תסמינים (DB ”אדום” מדכא רעש 5xx).
8) יוצאים מן הכלל ומצבים מיוחדים
ביטחון/חוק: הסלמה של חקירות ביטחוניות וחוקיות שלא בתורו; הודעות פומביות רק באמצעות תיאום.
ספקים: מטריצת OLA/SLA נפרדת (אנשי קשר, אזורי זמן, עדיפות).
שינוי הקפאה: אם SEV-1/0 - הקפאה אוטומטית של שחרורים ותצורות.
9) מדדי בגרות מטריצה
אק p95 (SEV-1/0) סימון 5 דקות.
זמן להכריז (חציוני) על 10 דקות.
פקודות דבקות SLA ב-95%.
הסלמה הצלחה (נפתר ברמה P1/P2) -70%.
הסלמה לא-ACK Authority QOQ.
זמן תגובת ספק לספקים קריטיים במסגרת החוזה.
10) רשימות בדיקה
אונליין (לתורנות)
[ ] השפעת SLO וסב פוטנציאלי שזוהו.
[ ] ACK עשה ו-IC הוקצה (עבור SEV-1/0).
[ ] חדר מלחמה פתוח, ספר מהלכים מצורף.
[ ] עדכון מצב שפורסם/תוכנן על ידי SLA.
[ ] ההקפאה התאפשרה (במקרה הצורך), הספק/אבטחה החריפה.
תהליך (סקירה שבועית)
[ ] האם סולם ההסלמה עבד על ה ־ SLA?
[ ] האם היו הסלמה מיותרת לפני IC?
[ ] האם הודעות הלקוחות מדויקות ועיתיות?
[ ] האם היו חוסמים (גישה, קשר עם ספק, ערוץ שקט)?
[ ] "פים לכישלונות תהליכים.
11) תבניות
11. 1 מדיניות הסלמה (רעיון YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 כרטיס הסלמה (עבור בוט)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 תבנית לעדכון הראשון לציבור
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) אינטגרציות
התראה-as-Code: כל כלל דף מפנה בדיוק פנקס משחקים אחד ויודע מטריצת הסלמה משלו.
ChatOps: פקודות '/הכרזה 'Sev1', '/עמוד p2 ', '/עדכון מצב', טיימרים אוטומטיים של עדכונים.
CMDB/Catalog: לשירות יש בעלים, תורים, מטריצות, ספקים, ערוצים.
עמוד מצב: תבניות SEV-1/0, היסטוריית עדכון, קישורים ל ־ RCA.
13) אנטי דפוסים
”להסלים הכל בבת אחת” = רעש ואחריות מטושטשת.
אין איי י/חדר מלחמה - פתרונות לזחול לשיחות.
עיכוב העדכון הראשון - עלייה בתלונות וסיכונים ביחסי ציבור.
ללא יוצא מן הכלל אבטחה - סיכונים משפטיים.
ספקים חיצוניים ללא בעלים ואנשי קשר.
המדרגות אינן אוטומטיות - הכל ”על בלם היד”.
14) מימוש מפת דרכים (3-5 שבועות)
1. נד. 1: לתקן קריטריונים וזמנים; אספו אנשי קשר בעלי תפקיד/ספק.
2. נד. 2: לתאר את המדיניות (YAML), לקשור להתראה-as-Code, להפעיל את הסולם בזימונית/בוט.
3. נד. 3: טייס על 2-3 שירותים קריטיים; דיבג שבלול תקשורת ותבניות.
4. נד. 4-5: להרחיב סיקור, להציג Escalation Review השבועי ומדדי בגרות.
15) השורה התחתונה
מטריצת ההסלמה היא החוקה המבצעית של תקריות: מי, מתי ואיך מתחבר. עם SEVs ברור, תזמון, ערוצים, חריגות אבטחה ואינטגרציה עם ספרי משחק ודף סטטוס, הצוות מגיב במהירות, באופן עקבי ושקוף, והמשתמשים רואים עדכונים צפויים ושיקום שירות בטוח.