מדדי תקרית
1) מדוע למדוד אירועים
מדדי תקרית הופכים אירועים כאוטיים לתהליך בר-שליטה: מסייעים בהפחתת זמני התגובה וההחלמה, מפחיתים הישנות סיבות, מוכיחים מימוש SLO/חוזה ומוצאים נקודות אוטומציה. סט טוב של מדדים מכסה את כל המחזור: איתור = סיווג = הסלמה = פעולות מקלות = שחזור = פירוק CAPA =.
2) הגדרות ונוסחאות בסיסיות
מרווחי אירוע
(MTTD (Mean Time to Expect = זמן ממוצע מ T0 (התחלה בפועל של השפעה) לאות/גילוי ראשון.
MTTA (זמן ממוצע להכיר) = זמן ממוצע מאות ראשון לאק בכוננות.
(MTTM (Mean Time to Methigate) = זמן להשגת הפחתה מתחת לסף ה-SLO (לעתים קרובות = זמן לעבודת UX/הידרדרות).
MTTR (זמן ממוצע להתאושש) = זמן ממוצע להשלמת התאוששות המטרה SLIs.
MTBF (זמן ממוצע בין כשלים) = מרווח ממוצע בין תקריות רלוונטיות.
זמני הפעלה
זמן להכריז - מ- T0 להודעה הרשמית של רמת האירוע/SEV.
זמן לתקשורת - מהודעה לעדכון SLA ציבורי/פנימי ראשון.
זמן במצב - משך כל שלב (מיון/דיאג/תיקון/אימות).
תדר ושבר
מספר תקריות בתקופה.
קצב התקרית - ב 1k/10k/100 אלף עסקאות מוצלחות או בקשות (נורמליזציה).
תערובת SEV - הפצה על ידי חומרה (SEV-0... SEV-3).
SLA פריצת ספירה/קצב - מספר/נתח של הפרות של סלאחים חיצוניים.
שינוי שיעור הכישלון -% מהתקריות הנגרמות כתוצאה משינויים (שחרור/הגדרות/הגירות).
איכות של אותות ותהליכים
% עמודים ניתנים לפעולה - הפרופורציה של עמודים שהובילה לפעולות משמעותיות של חוברות משחקים.
שיעור חיובי שגוי (עמודים) - הפרופורציה של תוצאות חיוביות שגויות.
סיקור זיהוי - פרופורציה של אירועים שאותרו על ידי אוטומציה (לא לקוחות/תמיכה).
קצב פתיחה מחדש - היחס של תקריות חוזרות עם אותו גורם שורש 90 ימים.
השלמת CAPA -% מהפעולות התיקון/מניעה נסגרו בזמן.
Comms SLA Adherence - הפרופורציה של העדכונים שפורסמו על ידי התדר הנדרש.
3) מפת מדדים על ידי שלב תקרית
4) נורמליזציה וקטע
נרמול דלפקים לנפח (תנועה, הצלחה, משתמשים פעילים).
קטע אחר קטע: אזור/דייר, ספק (PSP/KYC/CDN), סוג של שינוי (קוד/קונפיג/אינפרה), זמן של יום (יום/לילה), מקור גילוי (סינתטי/רום/אינפרה/תמיכה).
עסקי SLIS (הצלחה בתשלומים, רישום, חידוש חידושים) חשובים עבור מדדי אירוע של קישור עסקי להשפלתם.
5) מטרות סף (ציוני דרך, להסתגל לתחום)
MTTD: 5 דקות עבור Tier-0, 10-15 דקות עבור Tier-1.
MTTA: 5 דקות (24/7), 10 דקות (אחרי השמש).
MTM: 15 דקות (Tier-0), 30-60 דקות (Tier-1).
MTTR: lood 60 min (Tier-0), lood 4 h (Tier-1).
כיסוי זיהוי: אוטומציה של 85%.
% עמודים הפעילים: 80-90%; דפי FP: רשום 5%.
קצב פתיחה מחדש (90): 5-10%.
השלמת CAPA (בזמן): 85%.
6) ייחוס סיבות והשפעה על השינויים
הקצה גורם ראשוני (קוד/קונפיג/Infra/Despect/Security/Data/Cability) והדק (שחרור זיהוי, שינוי הגדרות, הגירה, גורם חיצוני) לכל תקרית.
שמור MTTR/Count - כמה שחרורים ותצורות תורמים (בסיס למדיניות שער/קנרית).
בנפרד, שקול תקריות שגרמו לספק (PSP/KYC/CDN/Cloud) לניהול מסלולים וחוזים.
7) תקשורת ופגיעה בלקוח
זמן לעדכון ציבורי ראשון ועדכון קיידנס (לדוגמה, כל 15/30 דקות).
קצב תלונות - כרטיסים/תלונות על אירוע 1, מגמה.
דיוק מצב - החלק של עדכונים ציבוריים ללא חזרה.
פוסט-תקרית NPS (על ידי לקוח מפתח) - דחיפה קצרה אחרי SEV-1/0.
8) התראה על מדדים איכותיים סביב תקריות
עמוד אינדקס סערה - מספר העמודים/שעה לכל שיחה בזמן תקרית (median/p95).
דדופ יעילות - הפרופורציה של העתקים מדוכאים.
שיעור אישור Quorum - הפרופורציה של תקריות שבהן מופעל מניין הגשושיות (medh 2 independent procession rate).
Shadow # Canary = המרת פרוד של כללים חדשים (Assent-as-Code).
9) לוחות מחוונים (סט מינימלי)
1. מספר תקריות, הפצת SEV, MTTR/MTTM, SLA נשבר, נפתח מחדש, CAPA.
2. SRE Operations: MTTD/MTTA Time to Cress/Common.
3. שינוי השפעה: שיתוף תקריות שחרור/הגדרה, MTTR לתקריות שינוי, חלונות תחזוקה נגד תקריות.
4. ספקים: תקריות על ידי ספק, זמן השפלה, מתגי מסלול, SLA חוזית.
5. מפת חום של שירות/אזור: תקריות ו-MTTR לכל 1k עסקאות.
לשלב גרפיקת SLI/SLO עם אנוטציות שחרור וסימני SEV.
10) תרשים נתוני תקרית (מומלץ)
שדות כרטיס/שולחן מינימליים:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) דוגמאות חישוב (רעיון SQL)
MTTR לאורך זמן (חציוני):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
כיסוי זיהוי:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
שינוי שיעור הכישלון (28 ימים):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) קישור ל ־ SLO ותקציבי שגיאות
הקלט דקות שריפה לכל אירוע - זה ”המשקל” העיקרי של האירוע.
עדיפות CAPA על ידי כווייה מוחלטת ומשקל SEV ולא ספירת אירוע.
תפר יחד כוויה עם השפעה פיננסית (דוגמה: $/דקה של השבתה או $/אבוד עסקה).
13) מדדים ברמת תוכנה
מדיאן מסגירת התקרית לפרסום הדו "ח.
ראיות שלמות: שיתוף דוחות עם ציר זמן, תרשימי SLI, יומנים, קישורים ליחסי ציבור/תקשורת.
התראה על ציון היגיינה: אינדקס מרוכב על ידי פעולה/FP/dedup/quorum.
פגמי מסירה: הפרופורציה של משמרות שבו ההקשר של תקריות פעילות הולך לאיבוד.
כיסוי אימונים:% בכוננות מדומה ברבעון.
14) רשימת מימושים של Metrics
] מוגדרים [ חוזי זמן אחידים (UTC) וחוזה אירועים.
[ ]-SEV, שורש גורם לטקסונומיה ומקורות גילוי מאומצים.
[ ] Metrics מנורמלים לנפח (תנועה/הצלחה).
[ ] מוכנים 3 לוחות מחוונים:
[ ] התראה כקוד: לכל עמוד יש ספר משחקים ובעלים.
[ ] SLA לאחר המוות (למשל. טיוטה 72 ', העבד הסופי 5. ימים).
[ ] CAPAs הם במעקב עם אפקט KPIs ו D + 14/D + 30 תאריכים.
[ ] Weekly Incident Review: Trends, Top Reasons, CAPA State.
15) אנטי דפוסים
שקול רק MTTR ללא MTTD/MTTA/MTTM # אובדן שליטה בשלבים מוקדמים.
לא לנרמל בנפח = שירותים גדולים ”נראים” גרועים יותר.
SEV לא סטטיסטי * תקריות שונות.
חוסר הראיות = מחלוקת במקום שיפורים.
התמקד במספר תקריות במקום פגיעת שריפה/SLO.
להתעלם מפתיחה מחודשת ו CAPA # נסיגות נצחיות.
מדדים באקסל ללא העלאה אוטומטית מטלמטריה/ITSM.
16) תבניות מיני
כרטיס תקרית (אבי.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
דו "ח מנהלי (28 ימים, קווי מפתח)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) מפת דרכים (שבועות 4-6)
1. נד. 1-Timestamp/field סטנדרטי, SEV/סיבה מילון תצוגת אירוע בסיסית.
2. נד. 2: MTTD/MTTTM/MTTR, נורמליזציה ולוח מחוונים.
3. נד. 3: צרור עם שחרור/תצורה, כיסוי גילוי והיגיינה התראה.
4. נד. 4: דו "ח מנהלי, SLA לאחר המוות, גשש CAPA.
5. נד. 5-6: דוחות ספק, מודל פיננסי שרוף, יעדים רבעוניים וסקירת תקריות רבעונית.
18) השורה התחתונה
מדדי אירוע הם לא רק מספרים, אלא גם לוח סיפורים של אמינות מבצעית. כאשר מודדים את כל הזרימה (מגילוי ל-CAPA), מנרמל את המדדים, מקשר אותם ל-SLOs ושינויים, וסוקר באופן קבוע, הארגון מפחית באופן צפוי את זמן התגובה, העלות ותדירות התקרית - והמשתמשים רואים שירות יציב.