Testarea interfeței A/B

Introducere

Testarea A/B este un experiment controlat în care două (sau mai multe) versiuni ale unei interfețe sunt comparate pe utilizatori reali pentru a înțelege ce versiune duce la valori mai bune ale produselor. Scopul este de a reduce incertitudinea în luarea deciziilor și de a îmbunătăți UX prin schimbări verificabile, mai degrabă decât opinii.

Când testarea A/B este adecvată

Există un obiectiv măsurabil (conversie, timp în acțiune, așteptare, NPS, viteză de lucru).
Efectul așteptat nu este evident sau poate diferi în funcție de segment.
Riscul de schimbare este suficient de mare pentru a justifica experimentul.
Traficul vă permite să colectați rapid un eșantion semnificativ statistic.

Atunci când este mai bine să nu testați: microcopii pe ecrane subutilizate, caracteristici cu dependență puternică de rețea/socială (depășirea efectelor), editări care necesită instruirea pe termen lung a utilizatorilor.

Formularea ipotezei

Șablon:

Dacă schimbăm [X în interfață] pentru [Y-segment/toate], atunci [Z metric] se va schimba la [direcție/magnitudine], deoarece [motiv comportamental].

Exemplu: Dacă deplasați CTA-ul principal deasupra liniei de cutare și reduceți forma de la 6 la 3 câmpuri, atunci CR-ul acțiunii primare va crește cu + 3-5% datorită scăderii frecării.

Valori: țintă și defensivă

Primar: o singură cheie - de exemplu, finalizarea/conversia scriptului țintă.
Secundar: defilare adâncime, CTR, timp de acțiune, erori, viteza paginii.
Guardrails (de protecție): stabilitatea performanței (TTFB, LCP), returnări/refuzuri, reclamații/rollback, respectarea limitelor de notificare, disponibilitate.

Se recomandă fixarea în avans a MDE (efect minim detectabil), a ferestrei de observare și a criteriilor de succes.

Design experiment

Randomizarea și unitatea de analiză

Unitate de randomizare: utilizator (user_id), uneori sesiune sau organizare (cluster).
Stratificare/blocare: prin dispozitiv/canal dacă există diferențe puternice.
Overflow-Evitați atunci când comportamentul unui grup afectează un alt (de exemplu, liste/benzi partajate). În astfel de cazuri, teste cluster.

Dimensiunea eșantionului și MDE (simplificat)

Aproximativ: cu cât conversia de bază este mai mică și efectul este mai mic, cu atât eșantionul este mai mare.
Pentru CR ~ 10% și MDE ~ + 5% din efectul relativ, sunt adesea necesare zeci de mii de observații pe variantă.

Durata

Concentrați-vă pe ciclul de comportament săptămânal complet + marjă (de obicei 2-4 săptămâni) sau până la atingerea capacității planificate. Nu opriţi testul prematur.

Rampă-up (retragere treptată)

1-5% din trafic (canar) → 10-25% → 50% → 100%, cu monitorizare parapete.

Calitatea și valabilitatea datelor

SRM (nepotrivirea raportului de probă)

Verificați dacă distribuția reală a traficului (A/B) este conform planului (de exemplu, 50/50). Abateri semnificative = problemă de includere/pavilion/bot.

Identitate și dispozitiv încrucișat

Utilizați un user_id stabil; luați în considerare dispozitivele încrucișate, decăderea cookie-urilor, autorizarea mai târziu în pâlnie.

Bots și anomalii

Filtrați modele nenaturale (clicuri super-rapide, agenți de utilizator lipsă, referințe nevalide).

Sezonalitate și evenimente

Nu efectuați teste pentru perioade puternice „anormale” (sărbători/vânzări), cu excepția cazului în care acesta este scopul testului.

Analiza statistică

Frecvența de abordare (clasic)

Fixați alfa (de obicei 0. 05) și putere (de obicei 80%).
Nu „peep” la fiecare oră, fără ajustări - riscul de fals pozitive.
Pentru mai multe valori/variante, aplicați ajustări (Bonferroni/Holm/Hochberg) sau o ierarhie a metricii.

Abordarea bayesiană

Estimează distribuția probabilității efectului și probabilitatea superiorității variantei.
Convenabil pentru monitorizarea în timp real și luarea deciziilor „suficient de bune”.

CUPED/covariate

Reducerea variantelor datorate covariatelor pre-testate (de exemplu, activitatea saptamanii trecute) → obtinerea unei puteri mai rapide.