בדיקת ממשק A/B

מבוא

מבחן A/B הוא ניסוי מבוקר שבו שתי גרסאות (או יותר) של ממשק מושוות למשתמשים אמיתיים כדי להבין איזו גרסה מובילה למדדי מוצר טובים יותר. המטרה היא להפחית את אי הוודאות בקבלת החלטות ולשפר את UX באמצעות שינויים ניתנים לאימות במקום דעות.

כאשר A/B בדיקה מתאימה

ישנה מטרה ניתנת למדידה (המרה, זמן לפעולה, החזקה, NPS, מהירות משימה).
האפקט הצפוי אינו ברור או עשוי להיות שונה על פי קטע.
הסיכון לשינוי גבוה מספיק כדי להצדיק את הניסוי.
התנועה מאפשרת לך לאסוף במהירות מדגם משמעותי סטטיסטית.

כאשר עדיף לא לבדוק: מיקרו-קופים על מסכים לא בשימוש, תכונות עם תלות חזקה ברשת/חברתית (עודף אפקטים), עריכה הדורשת הכשרה ארוכת טווח של משתמשים.

נוסח השערה

תבנית:

אם נשנה X בממשק עבור Y/כל , אז Z מטרי ישתנה

דוגמה: אם תזיזו את ה-CTA הראשי מעל קו הקימוט ותפחיתו את הצורה מ-6 ל-3 שדות, אז ה-CR של הפעולה העיקרית יגדל ב-3-5% עקב ירידה בחיכוך.

מטרות והתגוננות

עיקרי: מפתח אחד - לדוגמה, השלמת תסריט המטרה/המרה.
משנית: עומק גלילה, CTR, זמן לפעולה, טעויות, מהירות דף.
מעקות בטיחות (מגן): יציבות ביצועים (TTFB, LCP), חזרה/סירוב, תלונות/גלגולים, ציות למגבלות הודעה, זמינות.

מומלץ לתקן MDE (אפקט ניתן לזיהוי מינימלי), חלון תצפית וקריטריוני הצלחה מראש.

עיצוב ניסוי

רנדומיזציה ויחידת אנליזה

יחידה אקראית: משתמש (user_id), לפעמים סשן או ארגון (אשכול).
סטרטיפיקציה/חסימה: על ידי התקן/ערוץ אם יש הבדלים חזקים.
Overflow-Revent כאשר ההתנהגות של קבוצה אחת משפיעה על אחרת (לדוגמה, רשימות/קלטות משותפות). במקרים כאלה, מבחני אשכול.

גודל מדגם ו MDE (פשט)

משוער: ככל שההמרה הבסיסית נמוכה יותר וההשפעה קטנה יותר, כך המדגם גדול יותר.
עבור CR ~ 10% ו- MDE ~ + 5% מהאפקט היחסי, עשרות אלפי תצפיות לכל וריאנט נדרשות לעתים קרובות.

משך

התמקד במחזור ההתנהגות השבועי המלא + מרווח (בדרך כלל 2-4 שבועות) או עד להגעה ליכולת המתוכננת. אל תעצור את הבדיקה בטרם עת.

רמפה-up (נסיגה הדרגתית)

1-5% מהתנועה (כנרית) = 10-25% = 50% = 100%, עם מעקב מעקות בטיחות.

איכות נתונים ותוקף

SRM (יחס דגימה)

ודא שהתפלגות התנועה בפועל (A/B) היא כמתוכנן (לדוגמה, 50/50). סטיות משמעותיות: בעיית הכללה/דגל/בוט.

זהות ומכשיר צולב

השתמש user_id יציב; שקול התקנים צולבים, עוגיות-דעיכה, אישור מאוחר יותר משפך.

בוטים וחריגות

מסנן תבניות לא טבעיות (קליקים סופר-מהירים, סוכני משתמש חסרים, הפניות לא תקפות).

עונה ואירועים

אל תערוך בדיקות לתקופות ”לא נורמליות” חזקות (חגים/מכירות) אלא אם כן מדובר במטרת הבדיקה.

ניתוח סטטיסטי

גישה תדירות (קלאסי)

לתקן אלפא (בדרך כלל 0. 05) וכוח (בדרך כלל 80%).
אל ”ציוץ” כל שעה ללא שינויים - הסיכון של חיוביות כוזבות.
עבור מדטים/וריאנטים מרובים, הפעלת התאמות (Bonferroni/Holm/Hochberg) או היררכיית מדטים.

גישה בייסיאנית

אומדן ההתפלגות ההסתברותית של האפקט וההסתברות לעליונות של השונות.
נוח לניטור בזמן אמת וקבלת החלטות ”מספיק טובות”.

CUPED/covariates

הפחתת השוני כתוצאה ממבחן קדם קובריאטים (eg, בשבוע שעבר ”s activity”) = כוח מהיר יותר הושג.