تست رابط A/B

مقدمه

تست A/B یک آزمایش کنترل شده است که در آن دو (یا بیشتر) نسخه رابط کاربری در کاربران واقعی مقایسه می شود تا بدانند کدام نسخه منجر به معیارهای محصول بهتر می شود. هدف کاهش عدم قطعیت در تصمیم گیری و بهبود UX از طریق تغییرات قابل اثبات به جای نظرات است.

هنگامی که آزمایش A/B مناسب است

یک هدف قابل اندازه گیری (تبدیل، زمان به عمل، نگه داشتن، NPS، سرعت کار) وجود دارد.
اثر مورد انتظار واضح نیست یا ممکن است در هر بخش متفاوت باشد.
خطر تغییر به اندازه کافی برای توجیه آزمایش بالا است.
ترافیک به شما اجازه می دهد تا به سرعت یک نمونه آماری قابل توجه را جمع آوری کنید.

هنگامی که بهتر است آزمایش نکنید: Microcopies در صفحه نمایش های کم استفاده، ویژگی های با وابستگی قوی شبکه/اجتماعی (سرریز اثرات)، ویرایش هایی که نیاز به آموزش طولانی مدت کاربران دارند.

فرمول فرضیه

الگو:

اگر ما [X در رابط] را برای [Y-segment/all] تغییر دهیم، [Z متریک] به دلیل [دلیل رفتاری] تغییر خواهد کرد.

به عنوان مثال: اگر CTA اصلی را بالای خط چین حرکت دهید و شکل را از 6 تا 3 فیلد کاهش دهید، CR عمل اولیه به دلیل کاهش اصطکاک 3-5٪ افزایش می یابد.

معیارها: هدف و دفاعی

اولیه: یک کلید - به عنوان مثال، تکمیل/تبدیل اسکریپت هدف.
ثانویه: عمق پیمایش، CTR، زمان عمل، خطاها، سرعت صفحه.
Guardrails (محافظ): ثبات عملکرد (TTFB، LCP)، بازده/امتناع، شکایات/لغو، انطباق با محدودیت اطلاع رسانی، در دسترس بودن.

توصیه می شود MDE (حداقل اثر قابل تشخیص)، پنجره مشاهده و معیارهای موفقیت را پیش بینی کنید.

طراحی آزمایش

تصادفی و واحد تجزیه و تحلیل

واحد تصادفی: کاربر (user_id)، گاهی اوقات جلسه یا سازمان (خوشه).
طبقه بندی/مسدود کردن: توسط دستگاه/کانال اگر تفاوت های قوی وجود دارد.
اجتناب از زمانی که رفتار یک گروه بر دیگری تاثیر می گذارد (به عنوان مثال، لیست ها/نوارهای مشترک). در چنین مواردی، تست های خوشه ای.

اندازه نمونه و MDE (ساده شده)

تقریبی: هرچه تبدیل پایه پایین تر باشد و اثر کوچکتر باشد، نمونه بزرگتر است.
برای CR ~ 10٪ و MDE ~ + 5٪ از اثر نسبی، ده ها هزار مشاهدات در هر نوع اغلب مورد نیاز است.

مدت زمان

تمرکز بر چرخه رفتار کامل هفتگی + حاشیه (معمولا 2-4 هفته) و یا تا رسیدن به ظرفیت برنامه ریزی شده. تست را زود متوقف نکنید.

رمپ (برداشت تدریجی)

1-5٪ از ترافیک (قناری) → 10-25٪ → 50٪ → 100٪، با نظارت guardrails.

کیفیت و اعتبار داده ها

SRM (عدم تطابق نسبت نمونه)

اطمینان حاصل کنید که توزیع ترافیک واقعی (A/B) همانطور که برنامه ریزی شده است (به عنوان مثال، 50/50). انحرافات قابل توجه = مشکل ورود/پرچم/ربات.

هویت و دستگاه متقابل

از یک user_id ثابت استفاده کنید cross-devices, cookie-decay, authorization را بعدا در قیف در نظر بگیرید.

ربات ها و ناهنجاری ها

فیلتر کردن الگوهای غیر طبیعی (کلیک های فوق العاده سریع، عوامل کاربر از دست رفته، ارجاع دهنده های نامعتبر).

فصلی و حوادث

تست ها را برای دوره های غیر طبیعی قوی (تعطیلات/فروش) انجام ندهید، مگر اینکه هدف آزمون باشد.

تجزیه و تحلیل آماری

رویکرد فرکانس (کلاسیک)

ثابت آلفا (معمولا 0. 05) و قدرت (معمولا 80%).
هر ساعت بدون تنظیمات «نگاه» نکنید - خطر مثبت کاذب.
برای معیارهای متعدد/انواع, اعمال تنظیمات (Bonferroni/هولم/Hochberg) و یا یک سلسله مراتب از معیارهای.

رویکرد بیزی

تخمین توزیع احتمال اثر و احتمال برتری متغیر.
مناسب برای نظارت بر زمان واقعی و تصمیم گیری «به اندازه کافی خوب».

CUPED/متغیرهای کمکی

کاهش واریانس با توجه به متغیرهای قبل از آزمون (به عنوان مثال، فعالیت هفته گذشته) → قدرت سریعتر به دست می آید.