A/B interfeys testi
Giriş
A/B testi, interfeysin iki (və ya daha çox) versiyasının hansı versiyanın ən yaxşı məhsul metriklərinə səbəb olduğunu anlamaq üçün real istifadəçilərdə müqayisə edildiyi nəzarət edilən bir təcrübədir. Məqsəd qərar verərkən qeyri-müəyyənliyi azaltmaq və fikirləri deyil, yoxlanılan dəyişikliklər vasitəsilə UX-ni yaxşılaşdırmaqdır.
A/B testi uyğun olduqda
Ölçülə bilən bir məqsəd var (dönüşüm, hərəkətə qədər vaxt, saxlama, NPS, tapşırıq sürəti).
Gözlənilən təsir aydın deyil və ya seqmentlərdə fərqli ola bilər.
Dəyişiklik riski eksperimenti əsaslandırmaq üçün kifayət qədər yüksəkdir.
Trafik statistik əhəmiyyətli nümunəni tez bir zamanda toplamağa imkan verir.
Test etməmək daha yaxşıdır: az istifadə olunan ekranlarda mikrokopiyalar, güclü şəbəkə/sosial asılılıq (effektlərin dalğalanması), istifadəçilərin uzun müddət öyrənilməsini tələb edən düzəlişlər.
Fərziyyənin ifadəsi
Şablon:[Y-seqment/bütün] üçün [X interfeysdə] dəyişsək, [Z metrikası] [istiqamət/kəmiyyət] dəyişəcək, çünki [davranış səbəbi].
Nümunə: Əgər əsas CTA bükülmə xəttinin üstünə köçürülsə və formasını 6-dan 3 sahəyə endirsəniz, sürtünməni azaltmaqla ilkin hərəkət CR + 3-5% artacaq.
Metriklər: Hədəf və müdafiə
Primary (əsas): bir əsas - məsələn, hədəf ssenarinin tamamlanması/dönüşüm.
Secondary: scroll dərinliyi, CTR, hərəkət qədər vaxt, səhvlər, səhifə sürəti.
Guardrails (qoruyucu): performans sabitliyi (TTFB, LCP), geri qaytarma/uğursuzluqlar, şikayətlər/uğursuzluqlar, bildiriş limitlərinə riayət, mövcudluq.
MDE (minimum aşkarlanan effekt), müşahidə pəncərəsi və müvəffəqiyyət meyarlarını əvvəlcədən qeyd etmək tövsiyə olunur.
Təcrübə dizaynı
Randomizasiya və analiz vahidi
Randomizasiya vahidi: istifadəçi (user_id), bəzən - sessiya və ya təşkilat (klaster).
Stratifikasiya/bloklama: güclü fərqlər varsa cihazlar/kanallar vasitəsilə.
Interference: Bir qrupun davranışı digərinə təsir etdikdə (məsələn, ümumi siyahılar/lentlər) qaçın. Belə hallarda - klaster testləri.
Nümunə ölçüsü və MDE (sadələşdirilmiş)
Təqribən: əsas çevirmə nə qədər aşağı və təsir nə qədər kiçik olarsa, nümunə bir o qədər böyükdür.
CR ~ 10% və MDE ~ + 5% nisbi təsir üçün seçim üçün çox vaxt on minlərlə müşahidə tələb olunur.
Müddəti
Tam bir həftəlik davranış dövrünə + ehtiyata (adətən 2-4 həftə) və ya planlaşdırılan gücə çatana qədər diqqət yetirin. Testi vaxtından əvvəl dayandırmayın.
Rampa (tədricən çıxarılması)
1-5% trafik (canary) → 10-25% → 50% → 100%, guardrails monitorinqi ilə.
Məlumat keyfiyyəti və etibarlılığı
SRM (Sample Ratio Mismatch)
Faktiki trafik paylanmasının (A/B) plana uyğun olduğunu yoxlayın (məsələn, 50/50). Əhəmiyyətli sapmalar = inklüzyon/bayraq/bot problemi.
Kimlik və çarpaz cihaz
Sabit user_id istifadə edin; xaç cihazları, cookie-decay, sonradan hunidə avtorizasiyanı nəzərə alın.
Botlar və anomaliyalar
Qeyri-təbii nümunələri (ultra sürətli klik, itkin istifadəçi agentləri, qeyri-sabit refererlər) süzün.
Mövsümlük və hadisələr
Testin məqsədi deyilsə, güclü «anormal» dövrlər (tətil/satış) üçün testlərə başlamayın.
Statistik analiz
Tezlik yanaşması (klassik)
Alfa (adətən 0,05) və güc (adətən 80%) qeyd edin.
Hər saat düzəlişlər etmədən «baxmayın» - yanlış müsbət risk.
Çox metrik/variantlar üçün düzəlişlər (Bonferroni/Holm/Hochberg) və ya metrik iyerarxiya tətbiq edin.
Bayes yanaşması
Effekt ehtimalının paylanmasını və variantın üstünlük ehtimalını qiymətləndirir.
Real vaxt monitorinqi və «kifayət qədər yaxşı» qərar qəbul etmək üçün əlverişlidir.
CUPED/Kovariatlar
Testdən əvvəlki kovariatlar (məsələn, son bir həftədəki aktivlik) ilə dispersiyanın azaldılması → güc daha sürətli əldə edilir.