اختبار واجهة A/B

مقدمة

اختبار A/B هو تجربة مضبوطة حيث يتم مقارنة نسختين (أو أكثر) من واجهة على مستخدمين حقيقيين لفهم الإصدار الذي يؤدي إلى مقاييس منتج أفضل. الهدف هو تقليل عدم اليقين في صنع القرار وتحسين UX من خلال تغييرات يمكن التحقق منها بدلاً من الآراء.

عندما يكون اختبار A/B مناسبًا

هناك هدف قابل للقياس (التحويل، الوقت إلى العمل، عقد، NPS، سرعة المهمة).
التأثير المتوقع ليس واضحًا أو قد يختلف حسب الجزء.
خطر التغيير مرتفع بما يكفي لتبرير التجربة.
تسمح لك حركة المرور بجمع عينة ذات دلالة إحصائية بسرعة.

عندما يكون من الأفضل عدم الاختبار: النسخ الدقيقة على الشاشات غير المستخدمة، الميزات ذات الاعتماد القوي على الشبكة/الاجتماعي (تدفق التأثيرات)، التعديلات التي تتطلب تدريبًا طويل الأجل للمستخدمين.

صياغة الفرضية

قالب:

إذا قمنا بتغيير [X في الواجهة] لـ [Y-section/all]، فإن [Z metric] سيتغير إلى [الاتجاه/الحجم] لأن [السبب السلوكي].

مثال: إذا قمت بتحريك CTA الرئيسي فوق خط التجعد وقللت الشكل من 6 إلى 3 حقول، فإن CR للإجراء الأساسي سيزيد بنسبة + 3-5٪ بسبب انخفاض الاحتكاك.

المقاييس: الهدف والدفاع

الأساسي: مفتاح واحد - على سبيل المثال، استكمال/تحويل النص المستهدف.
ثانوي: تمرير العمق، CTR، وقت العمل، الأخطاء، سرعة الصفحة.
حواجز الحماية (وقائية): استقرار الأداء (TTFB، LCP)، العودة/الرفض، الشكاوى/التراجع، الامتثال لحدود الإخطار، التوافر.

يوصى بإصلاح MDE (الحد الأدنى من التأثير القابل للكشف) ونافذة المراقبة ومعايير النجاح مسبقًا.

تصميم التجربة

التوزيع العشوائي ووحدة التحليل

وحدة التوزيع العشوائي: المستخدم (user_id)، وأحيانا الدورة أو المنظمة (المجموعة).
الطبقية/الحجب: حسب الجهاز/القناة إذا كانت هناك اختلافات قوية.
تجنب الفائض عندما يؤثر سلوك مجموعة على مجموعة أخرى (على سبيل المثال، القوائم/الأشرطة المشتركة). في مثل هذه الحالات، الاختبارات العنقودية.

حجم العينة و MDE (مبسط)

تقريبي: كلما انخفض التحويل الأساسي وكلما قل التأثير، زادت العينة.
وبالنسبة لـ CR ~ 10٪ و MDE ~ + 5٪ من التأثير النسبي، غالبًا ما تكون هناك حاجة إلى عشرات الآلاف من الملاحظات لكل متغير.

المدة

ركز على دورة السلوك الأسبوعية الكاملة + الهامش (عادة 2-4 أسابيع) أو حتى الوصول إلى السعة المخطط لها. لا توقف الاختبار قبل الأوان.

تكثيف (انسحاب تدريجي)

1-5٪ من حركة المرور (الكناري) → 10-25٪ → 50٪ → 100٪، مع مراقبة حواجز الحماية.

جودة البيانات وصلاحيتها

SRM (نسبة العينة غير متطابقة)

التحقق من أن التوزيع الفعلي لحركة المرور (A/B) هو كما هو مخطط له (على سبيل المثال، 50/50). الانحرافات الكبيرة = الإدماج/العلم/الروبوت.

الهوية والأجهزة المتقاطعة

استخدام user_id مستقر ؛ ضع في اعتبارك الأجهزة المتقاطعة، وتحلل ملفات تعريف الارتباط، والترخيص لاحقًا في القمع.

الروبوتات والشذوذ

تصفية أنماط غير طبيعية (نقرات فائقة السرعة، وكلاء مستخدم مفقودون، وإحالات غير صالحة).

الموسمية والأحداث

لا تجري اختبارات لفترات «غير طبيعية» قوية (عطلات/مبيعات) إلا إذا كان الغرض من الاختبار.

تحليل إحصائي

نهج التردد (كلاسيكي)

إصلاح ألفا (عادة 0. 05) والطاقة (عادة 80٪).
لا «تختلس النظر» كل ساعة دون تعديلات - خطر الإيجابيات الكاذبة.
بالنسبة للمقاييس/المتغيرات المتعددة، طبق التعديلات (Bonferroni/Holm/Hochberg) أو التسلسل الهرمي للمقاييس.

نهج بايزي

يقدر التوزيع الاحتمالي للتأثير واحتمال تفوق البديل.
مناسب للمراقبة في الوقت الفعلي وصنع القرار «الجيد بما فيه الكفاية».

CUPED/covariates

تقليل التباين بسبب المتغيرات السابقة للاختبار (على سبيل المثال، نشاط الأسبوع الماضي) → يتم تحقيق قوة أسرع.