A/B interfeyslarni sinash

Kirish

A/B test - bu nazorat qilinadigan tajriba bo’lib, unda interfeysning ikki (yoki undan ortiq) versiyasi qaysi versiyasi eng yaxshi oziq-ovqat metriklariga olib kelishini tushunish uchun haqiqiy foydalanuvchilarga taqqoslanadi. Maqsad qaror qabul qilishda noaniqlikni kamaytirish va fikrlarni emas, balki tekshirilayotgan o’zgarishlar orqali UXni yaxshilashdir.

A/B-test o’rinli bo’lganda

O’lchanadigan maqsad (konvertatsiya, amal qilish vaqti, ushlab turish, NPS, vazifa tezligi).
Kutilayotgan effekt aniq emas yoki segmentlar bo’yicha farq qilishi mumkin.
O’zgarish xavfi tajribani oqlash uchun etarlicha yuqori.
Trafik statistik ahamiyatga ega namunani tezda yigʻish imkonini beradi.

Qachon sinovdan o’tkazmaslik yaxshiroqdir: kam foydalaniladigan ekranlardagi mikrokopiyalar, kuchli tarmoq/ijtimoiy bog’liq bo’lgan chichlar (ta’sirlarni ko’tarish), foydalanuvchilarni uzoq vaqt o’qitishni talab qiladigan tuzatishlar.

Gipotezaning formulasi

Namuna:

Agar biz [Y-segmenti/hammasi] uchun [interfeysdagi X] ni o’zgartirsak, [Z metrikasi] [yo’nalish/kattalik] ga o’zgaradi, chunki [xulq-atvor sababi].

Misol: Agar asosiy CTAni bukilish chizig’idan yuqoriga ko’chirib, shaklni 6 dan 3 ga qisqartirsak, ishqalanishni kamaytirish hisobiga birlamchi harakat CR + 3-5% ga oshadi.

Metriklar: maqsadli va himoyaviy

Asosiy (asosiy): bitta asosiy - masalan, maqsadli stsenariy tugashi/konvertatsiya.
Secondary: skroll chuqurligi, CTR, amal qilish vaqti, xatolar, sahifaning tezligi.
Guardrails (himoya): unumdorlik barqarorligi (TTFB, LCP), qaytarish/rad etish, shikoyatlar/rad etish, xabarnoma limitlariga rioya qilish, foydalanish imkoniyati.

MDE (minimal aniqlanadigan effekt), kuzatuv oynasi va muvaffaqiyat mezonlarini oldindan belgilash tavsiya etiladi.

Eksperiment dizayni

Randomizatsiya va tahlil birligi

Randomizatsiya birligi: foydalanuvchi (user_id), ba’zan - sessiya yoki tashkilot (klaster).
Stratifikatsiya/blokirovka: qurilmalar/kanallar bo’yicha, agar kuchli farqlar bo’lsa.
interference (interference): bir guruhning xatti-harakati boshqasiga taʼsir qilganda (masalan, umumiy roʻyxatlar/lentalar) qoching. Bunday hollarda - klaster testlari.

Tanlash hajmi va MDE (soddalashtirilgan)

Taxminan: asosiy konvertatsiya qanchalik past va ta’sir qanchalik kichik bo’lsa, tanlash shunchalik katta bo’ladi.
CR ~ 10% va MDE ~ + 5% nisbiy ta’sir uchun ko’pincha bir variant uchun o’n minglab kuzatishlar talab qilinadi.

Davomiyligi

Xulq-atvorning to’liq haftalik tsikliga yo’naltiring + zaxirasi (odatda 2-4 hafta) yoki rejalashtirilgan quvvatga erishish. Sinovni erta toʻxtatmang.

Rampap-ap (bosqichma-bosqich chiqarish)

1-5% trafik (canary) → 10-25% → 50% → 100%, guardrails monitoringi bilan.

Ma’lumotlar sifati va haqiqiyligi

SRM (Sample Ratio Mismatch)

Haqiqiy trafik taqsimoti (A/B) rejaga mos kelishini tekshiring (masalan, 50/50). Muhim ogʻishlar = bayroqlar/botlarning inklyuziya muammosi.

O’ziga xoslik va kross-devays

Barqaror user_id foydalaning; kross-qurilmalar, cookie-decay, keyinchalik hunida avtorizatsiyani hisobga oling.

Botlar va anomaliyalar

G’ayritabiiy patternlarni (o’ta tezkor bosishlar, mavjud bo’lmagan user-agentlar, nolid refererlar) filtrlang.

Mavsumiylik va voqealar

Agar bu test maqsadi bo’lmasa, kuchli «g’ayritabiiy» davrlar (bayramlar/sotuvlar) uchun testlarni boshlamang.

Statistik tahlil

Chastota yondashuvi (klassik)

Alfa (odatda 0,05) va quvvat (odatda 80%) ni belgilang.
Har soatda tuzatishlarsiz «ko’rmang» - noto’g’ri ijobiy xavf.
Ko’p metrik/variant uchun (Bonferroni/Holm/Hochberg) yoki metrik ierarxiyadan foydalaning.

Bayes yondashuvi

Ta’sir ehtimolining taqsimlanishini va variantdan ustunlik ehtimolini baholaydi.
Real vaqt monitoringi va qarorlar qabul qilish uchun qulaydir.

CUPED/kovariatlar

Sinov oldi kovariatlari hisobiga dispersiyani kamaytirish (masalan, o’tgan haftadagi faollik) → tezroq quvvatga erishiladi.