תחקיר לאחר התקרית
1) מדוע יש צורך בניתוח לאחר האירוע
תחקיר שלאחר המוות (AAR) הוא תהליך מובנה להכשרת ארגון לאחר כישלון. המטרה אינה למצוא אשמים, אלא לזהות גורמים שורשיים ותורמים ולגבש פעולות מדידות (CAPAs) המפחיתות את הסיכון להישנות ואת עלויות התקריות, שיפור SLO, MTTR ואמון הלקוחות/רגולטורי.
2) עקרונות (תרבות צודקת)
ללא האשמות: אנו מנתחים מערכות, החלטות והקשר, לא אישיות.
עובדות חשובות יותר מדעות: ציר זמן, יומנים, מדדים, שבילים, חפצים של שינויים.
מבט E2E: מתסמינים על הלקוח לתלות פנימית וספקים חיצוניים.
אימות: כל השערה נתמכת על ידי ניסוי/נתונים.
סגירת לולאה: ניתוח CAPA = = נקודות ביקורת = בדיקות חוזרות.
3) מתי לנהל ניתוחים ומה הם הפורמטים
נדרש: SEV-0/1; הפרת דרישות SLA/רגולטוריות; דליפת נתונים; סיכון יחסי ציבור משמעותי.
SEV-2 עם השפעה בולטת או תסמינים חוזרים.
תקשורת AAR: אם הכשל משפיע על עמוד הסטטוס/תמיכה, אנו בודקים את ה-SLA של עדכונים ואיכות ההודעות.
תנאים: טיוטה ל-48-72 שעות, הגרסה הסופית - עד 5 ימי עבודה (אלא אם כן הוסכם אחרת).
4) תפקידים ואחריות
RCA Lead: מארגן את התהליך, מוביל את הפגישה, אחראי לאיכות הדו "ח ו CAPA.
מפקד אירוע (IC): מספק עובדות תקריות ופתרונות.
כי ניתוח שמאשר חפצים.
תקשורת/תמיכה/משפטי: הערכה של תקשורת ודרישות ציות.
פרוטוקול, איסוף ראיות, ציות למבנה.
בעלי עניין במוצר/עסק - פגיעה בלקוח/סיבוב, עדיפות CAPA
5) הכנה: מה לאסוף לפני האסיפה
קו זמן (UTC): זיהוי T0 * התאוששות TN; משחרר דגלי תכונה/קונפיג 'ס, סטטוס של ספקים.
נתוני תצפית: גרפי SLI/SLO, קצב שגיאה, אחוזים, יומנים, עקבות, צילומי מסך.
הקשר של שינויים: קישורים ליחסי ציבור/פריסה, נדידת DB, תווי דגלים, תוכניות עבודה.
השפעה: קוהורטות/אזורים/ספקים מושפעים, דקות השבתה, נקודות זכות SLA.
תקשורת: טיוטות/פוסטים בעמוד הסטטוס, תשובות תמיכה, הודעות פנימיות.
פוליטיקאים/ספרי משחק: מה היה צריך לקרות בתהליך שבו היו סטיות.
6) נהלים אנליטיים (שילוב נבחר)
5 מדוע: נתיחה מהירה של השרשרת הסיבתית (סיכון - פשטות יתר).
תרשים עצם הדג: People/Process/Platform/Policy/Partner/Product.
ניתוח עץ פגם (FTA) - הסקת מסקנות מאירוע לגורמים מרובים (ו/OR).
שינוי ניתוח: מה השתנה במהלך האירוע לעומת מצב יציב.
גרף סיבתי: גרף סיבתי עבור מיקרו-רווחים מורכבים ותלות חיצונית.
עייפות, רעש מידע, ספרים לא רלוונטיים.
7) מבנה דיווח (תבנית)
1. מנכ "ל תקציר-מה, כאשר, מי הושפע, המעמד הסופי.
2. השפעה: SLI/SLO, משתמשים, אזורים/ספקים, דקות השבתה, השפעות פיננסיות/רגולטוריות.
3. ציר זמן (UTC): אירועי מפתח, שחרור, פתרונות IC, תקשורת.
4. תצפיות ונתונים: גרפים, יומנים, עקבות, דיפוזיות של תצורות/תוכניות.
5. השערות ובדיקות: התקבלו/נדחו, אזכורים לניסויים/סימולציות.
6. סיבות שורש: מערכת/תהליך/טכני (ניסוח ברור).
7. גורמים שתורמים: מדוע לא הבחינו/עצרו קודם לכן.
8. מה שעבד/מה שלא עבד: תהליכים, כלים, אנשים.
9. CAPA: פעולות מתקנות ומניעתיות עם בעלים/מועדים/מדדי הצלחה.
10. תוכנית אימות: D + 14/D + 30 נקודות בקרה, סגירת קריטריונים.
11. גרסאות חיצוניות: לקוח/רגולטורי (ללא נתונים רגישים).
12. יישומים: חפצים, קישורים לכרטיסים/יחסי ציבור, צילומי מסך של לוחות מחוונים.
8) קאפא: איך לגרום לפעולות לעבוד
לכל פעולה יש בעלים, תאריך יעד, ואפקט KPI (לדוגמה, ירידה בשיעור הכישלון המשתנה של X%, אפס חוזר של 90 יום, הפחתת קצב צריבה בקוצים).
אמצעי תיקון נפרד ואמצעי מניעה.
קישור למדיניות-כקוד: התראות, SLO-Gates, אוטוסקלה/גבולות, GitOps.
CAPA נכנס לציבור עם ביקורות בפגישות מבצעיות שבועיות.
9) בדיקת אפקט וסגירה
נקודות ביקורת: D + 7 (ביניים), D + 14/D + 30 (ראשי), D + 90 (בסך הכל).
אימות: בדיקות/סימולציות (יום משחק), תנועת צללים, יכולת תצפית (סלים יציב באזור הירוק), ללא נסיגות.
סגירה אפשרית רק עם CAPAs ומדדים מאומתים.
10) תקשורת וציות
מצב פנימי: מצב ברור למוצר/תמיכה/ניהול, עדכוני SLA נענים.
חיצוני: דף מצב, דואר ללקוחות/שותפים; שפה ללא אשמה, תכנית מניעה ברורה.
רגולציה: דוחות מועדים להודעה, דפרסונליזציה של דוגמאות, אחסון בלתי משתנה של דוחות וחפצים.
11) מטריצות לבגרות תהליך
זמן פרסום דיווח: בפועל נגד SLA (למשל 5 ימי עבודה).
שיעור השלמת CAPA:% מהפעילויות נסגרו בתאריך היעד.
קצב פתיחה מחדש: פרופורציה של תקריות חוזרות ב-90 יום.
יחס של גורם מערכתי נגד ”טעות אנוש”.
היגיינת התראה: ירידה בדפים כוזבים, צמיחת התראות המכוסות בספרי הפעלה.
מדדי דורה משתנים: MTTR, שינוי-כישלון-קצב לפני/אחרי.
12) רשימות בדיקה
לפני ניתוחים
[ ] בעלי RCA וחברות מוגדרת.
[ ] אוסף ציר זמן וחפצים (רישומים/גרפים/שחרור/דגלים).
[ ] אימפקט הערכת קוהורטה/אזור/ספק.
[ ] טיוטות של אימפקט וציר זמן הוכנו.
[ ] מדיניות/ספרי משחק רלוונטיים ממופים לפעולות אמיתיות.
במהלך
[ ] התקבלו/נדחו השערות ועילות נרשמו.
[ ] רוט וגורמים תורמים שזוהו.
[ ] תוכנית CAPA עם KPIs ומועדים נוצרו.
[ ] גרסאות הדו "ח לצדדים חיצוניים מוסכמות (במידת הצורך).
אחרי
[ דו "ח ] שפורסם בזמן, גישה לפי תפקיד.
[ ] "פים מחוברים, הבעלים מאושרים.
[ ] נקודות מבחן ומיני סימולציה מוקצים לאימות.
[ ] ריצה מעודכנת/SOP/התראות/תיעוד.
13) אנטי דפוסים
”אשם אדם X” - חוזר = ללא סיבות מערכתיות.
דיווח ללא CAPA או ללא בעלים/מועדים - נייר עבור נייר.
אין עובדות/חפצים - מסקנות על תחושות.
שפה נפוצה מדי (”עומס יתר על בסיס הנתונים”) ללא שינויים ספציפיים.
התעלמות מתקשורת וציות הם סיכוני מוניטין.
סגירת מעגל ללא בדיקת השפעה - נסיגה לאחר שבועות.
14) תבניות מיני
דיווח כותרת
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
נוסחת גורם שורש (דוגמה)
CAPA (שבר)
אפשר ניתוב קנרי ל-PSP-A (1% * 5% -25%), בעלים: @ paylems-tl, עד: 2025-11-07, KPI: אפס תקריות P1 כאשר הספקים משחררים 30 יום.
הגדרת זמן/מגשים מחדש עם זמן SLA כולל של 800 ms, בעלים: @ platform-sre, עד: 2025-11-05, KPI: p99 <600 ms תחת עומס N.
הוסף את SLI של BIN Cohort, בעלים: @ data-lead, ל-: 2025-11-10, KPI: Degradation Ideption <5 min.
15) הטבעה בתרגול יומיומי
ביקורות שבועיות של RCA: סטטוס CAPA, שיעורים חדשים, עדכוני תהליך.
ספרייה של פוסט-מורטמים בוויקי עם תגיות (שירות, SEV, סיבות) וחיפוש.
סימולציות המבוססות על תקרית בשבועות 2-4 כדי לאמת אמצעים.
כולל שיעורים בעלייה למטוס ועדכון תרחישי אימון.
16) השורה התחתונה
ניתוח שלאחר התקרית הוא מנגנון לשיפור מערכתי. כאשר נאספות עובדות, מוכחת סיבתיות, פעולות ניתנות למדידה ומאומתות, הארגון צובר הון פעיל מהימן: MTTR ואירועים חוזרים נופלים, שחרור חיזוי והגדלת ביטחון הלקוחות.