A/B interfeys testi

Giriş

A/B testi, interfeysin iki (və ya daha çox) versiyasının hansı versiyanın ən yaxşı məhsul metriklərinə səbəb olduğunu anlamaq üçün real istifadəçilərdə müqayisə edildiyi nəzarət edilən bir təcrübədir. Məqsəd qərar verərkən qeyri-müəyyənliyi azaltmaq və fikirləri deyil, yoxlanılan dəyişikliklər vasitəsilə UX-ni yaxşılaşdırmaqdır.

A/B testi uyğun olduqda

Ölçülə bilən bir məqsəd var (dönüşüm, hərəkətə qədər vaxt, saxlama, NPS, tapşırıq sürəti).
Gözlənilən təsir aydın deyil və ya seqmentlərdə fərqli ola bilər.
Dəyişiklik riski eksperimenti əsaslandırmaq üçün kifayət qədər yüksəkdir.
Trafik statistik əhəmiyyətli nümunəni tez bir zamanda toplamağa imkan verir.

Test etməmək daha yaxşıdır: az istifadə olunan ekranlarda mikrokopiyalar, güclü şəbəkə/sosial asılılıq (effektlərin dalğalanması), istifadəçilərin uzun müddət öyrənilməsini tələb edən düzəlişlər.

Fərziyyənin ifadəsi

Şablon:

[Y-seqment/bütün] üçün [X interfeysdə] dəyişsək, [Z metrikası] [istiqamət/kəmiyyət] dəyişəcək, çünki [davranış səbəbi].

Nümunə: Əgər əsas CTA bükülmə xəttinin üstünə köçürülsə və formasını 6-dan 3 sahəyə endirsəniz, sürtünməni azaltmaqla ilkin hərəkət CR + 3-5% artacaq.

Metriklər: Hədəf və müdafiə

Primary (əsas): bir əsas - məsələn, hədəf ssenarinin tamamlanması/dönüşüm.
Secondary: scroll dərinliyi, CTR, hərəkət qədər vaxt, səhvlər, səhifə sürəti.
Guardrails (qoruyucu): performans sabitliyi (TTFB, LCP), geri qaytarma/uğursuzluqlar, şikayətlər/uğursuzluqlar, bildiriş limitlərinə riayət, mövcudluq.

MDE (minimum aşkarlanan effekt), müşahidə pəncərəsi və müvəffəqiyyət meyarlarını əvvəlcədən qeyd etmək tövsiyə olunur.

Təcrübə dizaynı

Randomizasiya və analiz vahidi

Randomizasiya vahidi: istifadəçi (user_id), bəzən - sessiya və ya təşkilat (klaster).
Stratifikasiya/bloklama: güclü fərqlər varsa cihazlar/kanallar vasitəsilə.
Interference: Bir qrupun davranışı digərinə təsir etdikdə (məsələn, ümumi siyahılar/lentlər) qaçın. Belə hallarda - klaster testləri.

Nümunə ölçüsü və MDE (sadələşdirilmiş)

Təqribən: əsas çevirmə nə qədər aşağı və təsir nə qədər kiçik olarsa, nümunə bir o qədər böyükdür.
CR ~ 10% və MDE ~ + 5% nisbi təsir üçün seçim üçün çox vaxt on minlərlə müşahidə tələb olunur.

Müddəti

Tam bir həftəlik davranış dövrünə + ehtiyata (adətən 2-4 həftə) və ya planlaşdırılan gücə çatana qədər diqqət yetirin. Testi vaxtından əvvəl dayandırmayın.

Rampa (tədricən çıxarılması)

1-5% trafik (canary) → 10-25% → 50% → 100%, guardrails monitorinqi ilə.

Məlumat keyfiyyəti və etibarlılığı

SRM (Sample Ratio Mismatch)

Faktiki trafik paylanmasının (A/B) plana uyğun olduğunu yoxlayın (məsələn, 50/50). Əhəmiyyətli sapmalar = inklüzyon/bayraq/bot problemi.

Kimlik və çarpaz cihaz

Sabit user_id istifadə edin; xaç cihazları, cookie-decay, sonradan hunidə avtorizasiyanı nəzərə alın.

Botlar və anomaliyalar

Qeyri-təbii nümunələri (ultra sürətli klik, itkin istifadəçi agentləri, qeyri-sabit refererlər) süzün.

Mövsümlük və hadisələr

Testin məqsədi deyilsə, güclü «anormal» dövrlər (tətil/satış) üçün testlərə başlamayın.

Statistik analiz

Tezlik yanaşması (klassik)

Alfa (adətən 0,05) və güc (adətən 80%) qeyd edin.
Hər saat düzəlişlər etmədən «baxmayın» - yanlış müsbət risk.
Çox metrik/variantlar üçün düzəlişlər (Bonferroni/Holm/Hochberg) və ya metrik iyerarxiya tətbiq edin.

Bayes yanaşması

Effekt ehtimalının paylanmasını və variantın üstünlük ehtimalını qiymətləndirir.
Real vaxt monitorinqi və «kifayət qədər yaxşı» qərar qəbul etmək üçün əlverişlidir.

CUPED/Kovariatlar

Testdən əvvəlki kovariatlar (məsələn, son bir həftədəki aktivlik) ilə dispersiyanın azaldılması → güc daha sürətli əldə edilir.