קורלציה וסיבה ותוצאה
קורלציה וסיבה ותוצאה
קורלציה לוכדת שינויים משותפים במשתנים. סיבתיות עונה על השאלה: מה יקרה אם נתערב? באנליטיקה, מוצר וניהול סיכונים, הערך מביא בדיוק את האפקט הסיבתי: הוא מאפשר לך להעריך את הגידול מהפתרון, ולא רק אסוציאציה.
1) מושגים בסיסיים
קורלציה (association): יחס סטטיסטי ללא פירוש של ”מדוע”. "עלול להיגרם על ידי סיבה משותפת, סיבתיות הפוכה, או סיכוי.
אפקט הטיפול: ההבדל הצפוי בין העולם ”עם התערבות” ו ”ללא התערבות”.
עובדה נגדית: הבחנה בלתי אפשרית ”מה יקרה לאותו אובייקט ללא השפעה”.
Confounder: משתנה המשפיע הן על הסיבה והן על התוצאה.
Collider: משתנה שמושפע הן מהסיבה והן מהתוצאה; מצב המאיץ מעוות את העמותה.
פרדוקס סימפסון: כיוון האפקט משתנה לאחר שלוקח בחשבון את המשתנה/קטע החבוי.
2) כאשר מתאם הוא מספיק וכאשר הוא לא
אנליטיקה תיאורית, ניטור, EDA: קורלציות/דרגות/מפת חום.
קבלת החלטות והערכת השפעה: נדרשות שיטות סיבתיות (ניסויים קוואזי-ניסויים).
מודלי חיזוי: קורלציות הן שימושיות, אבל עבור ROI/מדיניות - לעבור להערכות סיבתיות או מודלים מרוממים.
3) ניסויים: תקן זהב
מבחני A/B (אקראיות): לחסל את הבלבול, להפוך את הקבוצות לשוות.
מעקות בטיחות: מחזור אחד של התנהגות, חשיפה יציבה, שליטה על העונות וההתאבכות (spillover).
מטריצות: אפקט, מרווחי ביטחון, MDE/power, הטרוגניות של אפקט אחר מקטע (Heterogeneous Treatment Effect).
תרגול: שחרור קנרית, פריצה בשלבים, בקרת CUPED/covariate כדי להפחית את השונות.
4) אם הניסוי אינו אפשרי: קוואזי-ניסויים
הבדלים בהבדלים (DiD): הבדלים לפני/אחרי משתנים בין ”מבחן” ל ”בקרה”. "הנחת המפתח היא מגמות מקבילות לפני ההתערבות.
שליטה סינתטית: אנחנו בונים שליטה ”סינתטית” כתערובת משוקללת של קבוצות תורמים. עמיד בפני מגמות שונות.
Region Displuity (RDD): חוק סף להקצאת השפעה; השוואה משני צדי הסף. חשוב: בלי ”מניפולציה” של הסף.
משתנים אינסטרומנטליים (IV): המשתנה משפיע על ”טיפול” אך אינו משפיע ישירות על התוצאה (למעט דרך הטיפול). נדרש: רלוונטיות ותוקף של המכשיר.
PSM/Matching: מבחן ובקרה עם קובריים דומים; שימושי כמו עיבוד מראש, אבל לא לחסל את המוליכים החבויים.
סדרת זמן מופרעת (ITS): הערכה של הפסקת מגמה בנקודת מדיניות בהיעדר זעזועים אחרים.
5) גרפים סיבתיים והקריטריונים ל ”חורים”
DAG (גרף אציקלי מוכוון): מפה ויזואלית של יחסים סיבתיים. עוזר לך לבחור אילו משתנים לנטר.
קריטריון דלת אחורית: אנחנו חוסמים את כל המסלולים האחוריים (קונפדרציות) - אנחנו מקבלים אומדן אפקט לא משוחד.
קריטריון לדלת הקדמית: אנו משתמשים במתווך שנושא השפעה מלאה כדי לעקוף סתירות נסתרות.
אל תשלוט בקושרים ובצאצאים של התוצאה: זה יוצר תזוזות.
פרקטיקה: קודם צייר DAG עם מומחי תחום, אחר כך בחר את קבוצת הקובריאטים המינימלית.
6) תוצאות אפשריות והערכות אפקט
EAT/ATT/ATC: אפקט ממוצע על פני כל/טיפול/בקרה.
CATE/HTE: אפקט אחר קטע (מדינה, ערוץ, מעמד סיכון).
דוגמנות מעלה: אנו מלמדים את המודל לדרג אובייקטים על ידי העלייה הצפויה מההתערבות, ולא על ידי ההסתברות הראשונית של האירוע.
7) מלכודות תכופות
סיבתיות הפוכה: ”עלייה בהנחות ↔ ירידה בביקוש” - הנחות מגיבות לנפילה ולא להיפך.
משתנים חסרים: מניות לא מדווחות/עונות/שינויים אזוריים.
הטיית שורדים: ניתוח של ”איחורים” בלבד.
דליפה: שימוש במידע עתידי באימונים/הערכה.
ערבוב מדדים: אופטימיזציה של מטרי פרוקסי במקום האפקט העסקי (גודהארט).
רגרסיה לאמצעי: טבעי חוזר למסכת המגמה ”אפקטים”.
8) סיבתיות במוצר, שיווק וסיכון
שיווק/קמפיינים: מיקוד מעלה, תדרי מגע שונים, הערכות LTV סיבתיות, DID/Synethic Control ROMIs.
תמחור/קידום: RDD (חוקי סף), ניסויי דגימת SKU/אזור.
המלצות: הערכה מחוץ למדיניות (IPS/DR) ושודדים; חשבונאות על התערבות.
מדיניות נגד הונאה/ר "ג: זהירות בסיבתיות - מנעולים משנים התנהגות ונתונים; השתמש בניסויים קוואזי ומעקות בטיחות על FPR וערעורים.
ניהול מבצע: ITS עבור שחרור ותקריות; גרפים סיבתיים עבור RCA.
9) הליך ניתוח: מהיפותזה לפתרון
1. ניסח את השאלה בתור סיבתיות: ”מהי ההשפעה של X על Y באופק T?”
2. צייר DAG: לתאם עם התחום, לסמן מגשרים/מתווכים/קולדרים.
3. עיצוב נבחר: RCT/A-B, DiD, RDD, IV, שליטה סינתטית, התאמה.
4. הגדר מדדים: ראשי (אפקט), מעקות בטיחות (איכות/אתיקה/פעולות), מקטעי CATE.
5. הכן נתונים: נקודה בזמן, covariates ”לפני” השפעה, לוח שנה ושעות.
6. הערכת אפקט: מודלים בסיסיים + בדיקות רובאסט (בדיקות פלצבו, רגישות).
7. בדוק את מידת השוד: מפרט חלופי, הדרה של קובריטים חשודים, להשאיר-אחד-החוצה.
8. הוכנס לפעולה: מדיניות/rollout, SLO, ניטור ובדיקה מחדש כאשר נסחף.
10) שיטות ואימות של רובאסט
בדיקות טרום מגמה (עבור DID): מגמות בדיקה/בקרה דומות לפני התערבות.
פלצבו/פרמוטציות: ”תאריכים פיקטיביים” או ”קבוצות פיקטיביות” - ההשפעה חייבת להיעלם.
ניתוח רגישות: עד כמה מעצור נסתר יעוות את התוצאה.
גבולות/מרווחי פאי: מודלים ניתנים לזיהוי חלקי * גבולות ביטחון.
מספר התאמות בדיקות BH/Holm למספר מקטעים.
תוקף חיצוני: הניידות של ההשפעה לשווקים/ערוצים אחרים (מטא-אנליזה).
11) אפקט דיווח מדדים
אפקט מוחלט: ppp, cu, דקות).
אפקט יחסי:% לקו הבסיס.
NNT/NH: כמה אובייקטים צריכים להיות מעובדים כדי להשיג תוצאה/נזק אחד.
עלות-יעילות: אפקט/עלות; סדרי עדיפויות של תקציבים.
Uplift @ k/קיני/AUUC: להתערבויות ממוקדות.
12) סיבתיות בפרקטיקה ML
מאפיינים סיבתיים: לא תמיד משפרים את דיוק החיזוי, אבל מתאימים יותר למדיניות.
יער סיבתי/מטא-לומדים (T/X/S-Learner): ציון CATE והתרוממות אישית.
הגינות עובדתית: הגינות של מודלים הלוקחים בחשבון נתיבים סיבתיים; חסימת נתיבים ”לא הוגנים”.
Do-op נגד לחזות: להבחין בין "לחזות" ו "מה אם נעשה. "השנייה דורשת מודלים סיבתיים/אמולטורים.
13) רשימת בדיקות סיבתיות
[ ] השאלה מוגדרת כאפקט התערבות/מדיניות
[ ] נבנה והוסכם על ידי DAG; מינימום של קובריאט (דלת אחורית) נבחר
עיצוב [ ] נבחר (ניסוי RCT/quasi) והנחות מפתח שנבדקו
[ ] נתוני נקודה בזמן; פרצופים שלא כלולים; לוח שנה/עונה נלקחת בחשבון
[ אפקט ] ומרווחי ביטחון מחושבים; המחאות רובאסט בוצעו
[ ] אפקט הטרוגניות (CATE) וסיכונים (מעקות בטיחות)
[ ערך ] דיגיטלי (ROI, NNT/NH, עלות שגיאה)
[ ] תוכנית יישום וניטור; בחן מחדש קריטריונים
14) מיני גלוסרי
דלת אחורית/דלת קדמית: קריטריונים לבחירת קובריים לזיהוי אפקט.
IV (משתנה אינסטרומנטלי): ”מנוף” משנה טיפול אבל לא תוצאה ישירה.
די.די: הבדל לפני/אחרי משתנה בין קבוצות.
הערכת אפקט ליד סף הכלל.
בקרה סינתטית: שליטה כשילוב משוקלל של תורמים.
HTE/CATE: אפקט הטרוגני/מותנה אחר מקטע.
העלייה הצפויה מההתנגשות, לא ההסתברות לאירוע.
תוצאות
התאמות עוזרות למצוא השערות, סיבתיות עוזרת לקבל החלטות. לבנות DAG, לבחור תכנון מתאים (ניסוי או ניסוי קוואזי), לבחון הנחות וגניבות, למדוד אפקטים הטרוגניים ולתרגם מסקנות למדיניות עם מעקות בטיחות וניטור. אז אנליטיקה מפסיקה להיות ”על חיבורים” והופכת מנוע של שינוי.