שינוי וניתוח ביצועים
1) מטרה וערך
ניתוח משמרות (באנגלית: Shift analytics) היא מערכת מדידה העושה את הניהול של 24 × 7 ניתוחים ניתנים לחיזוי: מאשר כיסוי SLO, מזהה את צווארי הבקבוק (חריצי לילה, תחומים עמוסים), מונע שחיקה ומשפר את איכות הידיות. עבור iGaming, זה משפיע ישירות על המהירות של מרבצים/מתיישבים, מועדי יעד ומוניטין של KYC/AML.
2) טקסונומיה של מדדים
2. כיסוי ומוכנות 1
שיעור כיסוי -% שעות עם הרכב מלא (לפי תפקיד/תחום/אזור).
מוכנות בכוננות - פרופורציה של משמרות עם איי-סי-סי-אל וקשרים תקפים.
העברת SLA - ציות לחלון ההעברה (10-15 דקות) ורשימת בדיקות.
2. 2 תגובה ושיעור הפחתה
(MTTA/MTR (by Day/Swing/Night slots, by domain): median, p90.
גילוי עופרת - פיגור בין דלדול SLI והפעולה הראשונה.
ניטור זמן לאחר שחרור בפועל ניטור של השחרור.
2. 3 איכות העברת המשמרת
פריטי רשימה ריקים.
מידע סחיפה - אי התאמה של עובדות בין var-room, ITSM וערוץ מצב.
Action Caryover - הפרופורציה של משימות ש ”היגרו” ללא בעלים/ETA.
2. 4 עומס ועייפות
עייפות ביפר: התראה/אדם/שבוע, דפי לילה, P1/person/shift.
צפיפות הסלמה (Escalation Density): מידת התקריות שהגיעו L2/L3 (כנגד תיקוני L1).
יחס סרק נגד עמוס: נגד עומס חי בזמן המתנה.
2. 5 יעילות ואוטומציה
קצב תיקון אוטומטי - תקריות נפתרו על ידי אוטומטי פעולות/בוט.
שימוש ב ־ Runbook -% מההתראות נסגרו בהתאם לתרחישים המקובלים.
רזולוציית מגע ראשונה (FCR) - סגור ברמה אל-1 ללא הסלמה.
זמן ממוצע בין תקריות (MTBI) - יציבות תחום/חריץ.
2. 6 הגינות וקיימות
אינדקס שיתוף הוגן - ערב לילות/סופי שבוע על ידי אנשים.
החלפת SLA - החלפות אושרו 48 שעות לפני המשמרת.
סיקור אימונים - חלק משמרות עם משבצת צל לעלייה למטוס.
2. 7 קישור עסקי
כמה זמן המשמרת החזיקה את SLO בירוק.
הכנסות בסיכון (פרוקסי) - אומדן של הכנסות אבודות ממשמרת P1/P2.
שותף Latency/Delecines - תרומה של שותפי PSP/KYC לשינוי תקריות.
3) מודל נתונים
3. גרגיר מאורעות 1
shift_event: התחלה/סוף, קומפוזיציה, תפקידים (IC/CL/L1/L2), אזור, תחומים.
alert_event: אות, עדיפות, בעלים, סגירה, ריצה/פעולה אוטומטית.
incident_event: P1-P4, צירי זמן, IC/CL, פרסומי מצב.
handover_check: סימני רשימה + פגמים/הערות.
release_watch: חלונות תצפית, שערים, גלגולים אוטומטיים.
יומן עבודה: דקות פרודוקטיביות (אבחון, תיקונים, עדכוני פסיק, לאחר המוות).
fatigue_signal: תדירות של עמודים/לילות, שעות עבדו.
3. 2 תרשים (מפושט)
”חותם זמן”, ”דייר”, ”אזור”, ”סביבה”, ”תחום”, ”תפקיד”, ”חומרה”.
אפשרויות אחסון: אגם אירוע (פרקט/קרחון) + preaggregates in DWH/TSDB.
מדיניות מח "ש: אגרגטים וכינויים בלבד; דואר אלקטרוני/זיהוי רעולי פנים.
4) אוסף נתונים (ETL)
1. ChatOps/Bot: פקודות '/מסירה ', '/תקרית', '/runbook '* מגזין תולעת.
2. תקרית/כרטיס סטטוסים, קישור לחדרים.
3. Metrics API: SLI/SLO (הצלחה אוטומטית, הימור pset p99, קצב שגיאה), KRI (תור lag, PSP דוחה).
4. מתכנן שינוי: לוחות שנה, מחליפים, תפקידים, צל.
5. CI/CD: שחרורים, חלונות תצפית, גלגולים אוטומטיים.
ETL מנרמל, מוסיפה ”shift _ slot” (יום/סווינג/לילה), מחשבת מדדים נגזרים (MTTA/MTR, Fair-Share).
5) לוחות מחוונים
5. 1 Exec (סקירה שבועית/חודשית)
CFR, MTTR, Auto-Fix Rate, SLO Impact, Emotion-at-Risk (פרוקסי).
מפת עומס חריץ ותחום (תרמית).
5. 2 מבצעים/SRE (כל משמרת/יום)
לוח בזמן אמת: P1-P4 פתוח, קצב צריבה, תורים/שכפול, מעקות בטיחות.
כרטיס העברה של מצב רשימה ופגמים.
לוח עייפות: עמודים/אנשים, לילות/אנשים (4 שבועות אחרונים), אזהרות.
5. 3 צוות/דומיין
MTTA/MTTR by Domain, FCR, Runbook Usage, חולקים L2/L3 הסלמה.
שיתוף הוגן והחלפת SLA לצוות ספציפי.
6) נוסחאות וסף
קצב כיסוי = Watch/168 מכוסה. המטרה ב-99%.
העברת SLA =% משמרות היכן שההעברה הושלמה והרשימה סגורה במשך 15 דקות (היעד הוא 95%).
עייפות זימונית (wk): p95 כוננות/אדם מטרה; אזהרה ב> p90.
Index Fair-Share = 1 - (general Lights/ target_nochey). המטרה היא 0. 8.
קצב תיקון אוטומטי 40% עבור L1 לרבעון (היעד תלוי בבגרות).
Runbook Usage - 70% עבור התראות חוזרות (10 אותות).
כרטיסי בקרה (X-MR, p-charts) עבור MTTA/MTR וקצב פגם; התראות כאשר הולך מעבר לגבולות שליטה.
7) שיטות אנליטיות
חריגות: STL/ESD/CUSUM על ידי התראה ו-MTTA/MTTR, לסמן פורטים וסיבות (שחרור, ספק).
טעינה תחזית: Prophet/ARIMA על ידי התראה ו P1/P2 לכל חריץ * FTE לוח זמנים.
תוצאה של ייחוס: מודל מעלה של שינויים בתהליכים (לדוגמה, תבנית מסירה חדשה).
ניסויי בקרה: A/B בתהליכים פנימיים (גרסה של הרשימה, ספר ריצות חדש).
ניתוח קוהורטה: ביצועים של מצטרפים חדשים (צל = סולו) נגד מנוסים.
8) אינטגרציות
רובוט תקרית: הודעות שינוי מדדים, מזכיר מסירה לא סגורה, רטרו מתחיל.
שחרור פורטל: מחבר חלונות שחרור עם פסגות טעינה; עצירה אוטומטית באדומים.
Metrics API: תוכנן SLO-view + Exemplares (trace_id) עבור RCA.
HR/PTO: גורמי התכווצות = = תכנון וניתוח של נתח הוגן.
9) פוליטיקאים וארגון RACI
Ops Analytics בעלים (SRE/Platform): מודל נתונים, לוחות מחוונים, דיוק מטרי.
בעלי שירות: פרשנות של אותות תחום, תוכניות שיפור.
Duty Manager: ניתוח שבועי של KPI/KRI, איזון חריצים.
ציות/Sec: ציות עם PII/SOD בטלמטריה ודיווח.
הדרכה עופרת: תוכניות עלייה למטוס מממצאי אנליטיקה.
10) תבניות חפץ
10. קטלוג מטריצות 1 (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 שאילתות לדוגמה (צבירה של SQL)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 רשימת מסירות (אותות איכות)
מצורף תקציר SLO/Sli
תקריות פתוחות יש בעלים/זמן הגעה משוער
עבודות/שחרור מתוכננות קשורות
סיכוני הספק קבועים
טיוטות תקשורת מוכנות
אנשי קשר בכוננות רלוונטיים
רשימת צפייה מעודכנת
11) ניהול שיפור סיכונים
KRI: DLQ/תור-lag growth per night, FCR drop <המטרה, Info Drift Spike.
תוכנית שיפור: תוכנית שבועית למבצעים עם בעלים/זמן הגעה משוער בטופ 3 פלופס.
משמרות משמעת לאחר המוות: רטרו על ליקויי מסירה והתרעות.
תהליך A/B: בדיקת ההשפעה של התקנות החדשות על MTTR/Auto-Fix.
12) דוגמאות KPI/OKR (רבעון)
KR1: MTTR P1 (חציוני) מ-22 דקות ל-15 דקות.
KR2: העברת SLA ל-95% בשלושה מקומות.
KR3: קצב תיקון אוטומטי 45% עבור 10 כללי איתות.
KR4: pager עייפות p95 על ידי 20% (לאחר אופטימיזציה התראה).
KR5: Index-Fair-Share Index 0. 85 בכל הקבוצות.
13) מימוש מפת דרכים (שבועות 6-10)
נד. 1-2: סכמות אירוע, ETL מ-Bot/ITSM/Metrics API, קטלוג מדדים ראשונים, לוחות מחוונים בסיסיים.
נד. 3-4: כרטיסי שליטה וסף, לוח עייפות, איכות מסירה, צרור עם שחרור.
נד. 5-6: חיזוי עומס (חריצים/תחומים), נתח הוגן ואנליטיקה החלפה.
נד. 7-8: טיפים אוטומטיים (אשר מנתחים לאוטומט), דו "חות ROI לתיקון אוטומטי, תבניות רטרו.
נד. 9-10: ניסויים בתהליכים (A/B checklists), KPIs על לוחות Exec, צוותי אימון.
14) תרופות אנטי ־ פטריות
חשוב על ”הצלחה משמרת” רק לפי מספר הכרטיסים הסגורים (ללא הקשר MTTR/SLO).
התעלם מליקויי מסירה (”וכל כך מובן”).
מדדים לא מנורמלים על ידי נפח תנועה/פסגות עונתיות.
התאמה אישית ו ”רייטינג אנשים” מבלי לקחת בחשבון מורכבות/תנאי קלט.
מחסור בנתח הוגן = שחוק ושגיאות מוגברות.
אפס מתאם עם שחרור/ניסויים = מסקנות שגויות.
נתונים ללא ביקורת תולעת וללא מדיניות מח "ש.
תוצאות
Shift and Performance Analytics היא מערכת מדידת ייצור על גבי ChatsOps, ITSM וטלמטריה: טקסונומיה ברורה של KPI/KRI, מודלים נכונים של נתונים, לוחות מחוונים לתפקידים שונים, שיטות סטטיסטיות וקשר לאפקט SLO/עסקי. גישה זו מאזנת עומסים, מאיצה את התגובה, מפחיתה שחיקה ומשפרת באופן צפוי את איכות פעולות פלטפורמת ה-iGaming.