GH GambleHub

ניתוח תפעולי

1) מהי אנליטיקה מבצעית ומדוע היא נחוצה

אנליטיקה מבצעית (Operational Analytics - Ops Analytics) היא מערכת המורכבת מאותות בתצפית (Metrics/Logs/Trails), ITSM (תקריות/בעיות/שינויים), CI/CD (שחרורים/קונפיגים), ספקים (PSSP P Business SLS I (הצלחה בתשלומים, רישום), הפך לחלונות בודדים ולוחות מחוונים לקבלת החלטות.

מטרות:
  • הפחתת MTTD/MTTR באמצעות גילוי מוקדם וייחוס נכון של סיבות;
  • לשמור על תקציבי SLOS וטעויות תחת שליטה;
  • Link משנה את ההתנגשות (שחרור/הגדרות = SLI/SLO/Tlusions/עלויות)
  • לתת ניתוחי שירות עצמי לצוותים וניהול.

2) מקורות ושכבת מידע קנונית

טלמטריה: מטריצות (SLI/resources), יומנים (מהדורת דגימה/PII), שבילים (trace_id/span_id, תגיות שחרור).
מודולי ITSM/תקרית: SEV, T0/Detected/Ack/Declared/Mitigated/Recovered עיתוני זמן, RCA/CAPA.
CI/CD & Config: גרסאות, משימות, קנריקס/כחול-ירוק, מצב דגל, הגדרות מטרה.
ספקים: statuses/SLAs, עיכובים, קודי שגיאה, משקולות מסלול.
FinOps: עלות לפי תגיות/חשבונות/דיירים, $/יחידה (1k אופרות.) .
DataOps: רעננות חלונות, שגיאות DQ, שושלת.

עקרון המפתח הוא מתאם יחיד באמצעות מזהים: ”שירות”, ”אזור”, ”דייר”, ”שחרור _ id',” שינוי _ id', ”תקרית _ id',” ספק ”,” trace _ id'.

3) מודל נתונים יחיד (מסגרת מפושטת)


dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code    config    infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok    rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency    error    status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)

4) SLI/SLO ומדדים עסקיים

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =

SLI: ”זמינות”, ”http _ p95”, ”שגיאה _ קצב”, ”תור _ עומק”.
שכבת SLO: מטרות + שרפה-קצב (חלון קצר/ארוך), הקצנה אוטומטית של הפרות.
נורמליזציה: אינדיקטורים לכל 1k פעולות מוצלחות/משתמשים/תנועה.

5) קורלציות וייחוס סיבות

שחרור/הגדרות ↔ SLI/SLO: אנוטציות על גרפים; דו "חות סיבה ותוצאה (פרופורציה של תקריות שינוי; MTTR לשנות תקריות).
ספקים ↔ SLI עסקי: משקולות של נתיבים נגד latency/שגיאות, התרומה של כל ספק לפספוס SLO.
קיבולת/משאבים ↔ חימום יתר של הבריכה * p95 growth extreme action.

6) חריגות וחיזוי

אנומליה-גילוי: Seasonality + perfolds + change-search features (לפני/אחרי השחרור).
תחזית: תבניות עומס שבועיות/עונתיות, תחזית תקציב לשגיאות בעירה, תחזית עלות ($/unit).
Gardrails: התראות רק כאשר מקורות קוורום (סינתטי + RUM + עסקי SLI).

7) תצוגות ולוחות מחוונים (התייחסות)

1. 28d: תערובת SEV, MTTR/MTTD חציונית, דבקות SLO, $/unit, סיבות עליונות.
2. מבצעים: SLI/SLO + Burn-rate, Page Storm, Actionable%, שינוי קצב כישלון.
3. שינוי השפעה: שחרור/הגדרות ↔ SLI/SLO/תלונות, גלגולים והשפעתם.
4. ספקים: PSP/KYC/CDN, השפעות על SLI עסקי, זמני תגובה.
5. FinOps: עלות לכל 1k txn, יומנים/יציאה, עלויות חריגות, המלצות (דגימה, אחסון).
6. DataOps: רעננות חלונות, שגיאות DQ, SLA צינור, הצלחה לאחור.

8) איכות נתונים וממשל

חוזי אירועים: תרשימים ברורים לתקריות/שחרור/SLIs (שדות חובה, אזורי זמן אחידים).
DQ-דמקה: שלמות, ייחודיות של מפתחות, עקביות ציר זמן (t0 ballered lake lack...).
שושלת: לוח מחוונים למקור (ניתן למעקב).
PII/סודות: עריכה/מיסוך לפי מדיניות; תולעת לראיות.
מבצעים מציגים עיכוב של 5 דקות.

9) מדדי בגרות ניתוח מבצעיים

כיסוי:% מהשירותים הקריטיים במחסנים ולוחות SLO (יעד 95%).
רעננות: החלק של וידג 'טים עם רעננות 5 דקות (יעד 95%).
Accionability:% מעבר מלוח מחוונים לפעולה (Playbook/SOP/Ticket) 90%.
כיסוי זיהוי: 85% מהתקריות מזוהות על ידי אוטומציה.
שיעור הייחוס: אחוז התקריות עם סיבה מאושרת והדק 90%.
Change Impact Share: שיתוף תקריות הקשורות לשינויים (שליטה במגמה).

איכות נתונים: שגיאות DQ/week @ QoQ

10) תהליך: מנתונים לפעולה

1. ETL/ELT, שכבת תכונה עבור ML.
2. זיהוי מטריצה/תחזית * Escalation (IC/P1/P2/Comms).
3. פעולה: ספר משחקים/SOP, שער שחרור, דגל תכונה, מתג הספק.
4. ראיות ו ־ AAR/RCA: ציר זמן, גרפים, קישורים לשחרור/רישומים/רצועות.
5. CAPA ופתרונות מוצר: עדיפות לפי דקות צריבה ופגיעה של $.

11) שאילתות דוגמאות (רעיון)

11. 1 השפעה של שחרור על SLO (24h)

sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;

11. 2 נתח של בעיות מספקים באזור

sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;

11. 3 עלות ל ־ 1k תשלומים מוצלחים

sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;

12) תבניות חפץ

12. תרשים אירוע 1 (JSON, שבר)

json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}

12. קטלוג 2 מטריצות (YAML, מקטע)

yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false

12. 3 תעודה מנהלית (קטעים)


1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines

13) כלים ודפוסים ארכיטקטוניים

Data Lake + DWH: שכבה ”גולמית” לטלמטריה, בתי תצוגה לפתרונות.
עיבוד זרם: כמעט בזמן אמת SLI/Burn-rate, תכונות מקוונות לסטיות.
חנות תכונה: שימוש חוזר בתכונות (קנרית, עונתיות, אותות מספקים).
מחסן שכבה/מטרי סמנטי: הגדרות מטריות אחידות (SLO, MTTR...).
בקרת גישה: RBAC/ABAC, אבטחה ברמת שורה לדיירים/אזורים.
קטלוג/לינאז ': חיפוש, תיאורים, תלויות, בעלים.

14) רשימות בדיקה

14. שיגור 1 של אנליטיקה מבצעית

[ ] מילונים מאושרים SLI/SLO, SEV, סיבות, סוגי שינוי.
[ דיאגרמות אירועים ] ואזורי זמן אחידים.
[ מחברי טלמטריה ], ITSM, CI/CD, ספקים, חיוב.

תצוגות: SLI/SLO, תקריות, שינויים, ספקים, פינוסים.

[ ] לוח מחוונים למנהלים/SRE/Change/Spectures זמינים.
[ ] התראות קוורום ודיכוי מוגדרות על חלונות תחזוקה.

14. סקירת מבצעים שבועית 2

[ ] מגמות SEV, MTTR/MTD, SLO מפספס, לשרוף דקות.
[ ] שינוי השפעה וסמנכ "ל כספים, מצב גלגול חוזר.
[ תקריות ] וזמני תגובה.
[ ] FinOps: $/יחידה, אנומליות רישום/יציאה.
[ ] מעמד CAPA, עבריינות, סדר עדיפויות.

15) אנטי דפוסים

”קיר הגרפים” בלי לצאת לפעולה.
הגדרות שונות של מדדים לפקודות (ללא שכבה סמנטית).
חוסר הערות שחרור/חלון - ייחוס חלש של סיבות.
אוריינטציה בינונית במקום p95/p99.
אין נורמליזציה לנפח - שירותים גדולים ”נראה גרוע יותר”.
PII ביומנים/חנויות, ליקוי בריאה.
נתונים ”stagnates” (> 5-10 דקות עבור ווידג 'טים בזמן אמת).

16) מימוש מפת דרכים (שבועות 4-8)

1. נד. 1: הסכמים על מילון מדדים, מזימות אירועים, קורלציה מזהה; SLI/SLO וחיבור ITSM.
2. נד. 2: תקריות/שינויים/פתחי תצוגה, שחררו הערות; לוחות מחוונים מנהלים של SRE.
3. נד. 3: שכבת FinOps ($/unit), רצועה עם SLI; גילוי אנומליה עם מניין.
4. נד. 4: שירות עצמי (שכבה סמנטית/חנות מטרית), קטלוג ושושלת.
5. נד. 5-6: תחזית עומס/עלות, דוחות לספקים, תצוגת CAPA.
6. נד. 7-8: סיקור של 95% Tier-0/1, רעננות SLA 5 דקות, ביקורות Ops רגילות.

17) השורה התחתונה

אנליטיקה תפעולית (באנגלית: Operational Analytics) היא מכונת החלטות: הגדרות אחידות של מדדים, מחסנים טריים, ייחוס נכון של סיבות, ומעברים ישירים לספרי משחק. במערכת כזו, הצוות מזהה במהירות ומסביר סטיות, מעריך במדויק את ההשפעה של שחרור וספקים, מנהל עלויות ומפחית באופן שיטתי את הסיכון - והמשתמשים מקבלים שירות יציב.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.