A/B ինտերֆեյսների փորձարկում

Ներածություն

A/B թեստավորումը վերահսկվող փորձ է, որտեղ ինտերֆեյսի երկու (կամ ավելի) տարբերակները համեմատվում են իրական պարամետրերի վրա, որպեսզի հասկանան, թե որ տարբերակն է հանգեցնում լավագույն ապրանքային չափումների։ Նպատակն է նվազեցնել անորոշությունը որոշումների կայացման ժամանակ և բարելավել UX-ը ստուգված փոփոխությունների միջոցով, ոչ թե կարծիքների միջոցով։

Երբ տեղին է A/B թեստավորումը

Կա չափված նպատակ (փոխակերպում, ժամանակ մինչև գործողությունը, պահպանումը, NPS-ը, խնդրի արագությունը)։

Ակնկալվող էֆեկտը աննկատ է կամ կարող է տարբերվել հատվածներով։

Փոփոխության ռիսկը բավականին բարձր է, որպեսզի արդարացնի փորձը։

Մոսկվան թույլ է տալիս արագ հավաքել վիճակագրորեն նշանակալի ընտրություն։

Երբ ավելի լավ է չտեսնել 'միկրոկոպիա օգտագործվող էկրանների վրա, ուժեղ ցանցային/սոցիալական կախվածությամբ ֆիտներ (փոխելով էֆեկտները), ուղղություններ, որոնք պահանջում են օգտագործողների երկար ուսուցում։

Հիպոթեզի ձևակերպումը

Ձևանմուշներ

Եթե մենք փոխենք [X ինտերֆեյսը] [Y-210/բոլորի համար], ապա [մետրը Z] կփոխվի [ուղղությունը/մեծությունը] քանի որ [վարքագծային պատճառը]։

Օրինակ, եթե հիմնական CTA-ն տեղափոխվի ճեղքման գծից վերև և նվազեցնի ձևը 6-ից 3 դաշտերի, ապա CR-ն առաջնային գործողությունը կաճի + 3-5 տոկոսով 'շփման նվազման պատճառով։

Մետրիկները ՝ պաշտպանիչ

Primary (հիմնական) 'մեկ հիմնական, օրինակ, ռուսական սցենարի ավարտը/կոնվերսիան։

Secondary: Sproll խորությունը, CTR, ժամանակը մինչև գործողությունը, սխալները, էջի արագությունը։

Guardrails (պաշտպանիչ) 'արտադրողականության բարձրացում (TTFB, LCP), բարձրացումներ/մերժումներ, բողոքներ/արձագանքներ, ծանուցումների սահմանների պահպանումը, հասանելիությունը։

Առաջարկվում է նախապես տեղադրել MDE (նվազագույն դետեկտիվ ազդեցություն), դիտման պատուհանը և հաջողության չափանիշները։

Փորձի դիզայն

Ռանդոմիզացիան և վերլուծության միավորը

Ռանդոմիզացիայի միավորը 'օգտագործողը (user _ id), երբեմն' նստաշրջան կամ կազմակերպություն (կլաստեր)։

Ստրատիֆիկացիան/արգելափակումը 'սարքերի/շարժիչների վրա, եթե կան ուժեղ տարբերություններ։

Փոխելով (interference) 'խուսափեք, երբ մեկ խմբի վարքագիծը ազդում է մյուսի վրա (օրինակ, ընդհանուր ցուցակները/ժապավենը)։ Նման դեպքերում կլաստերային թեստեր են։

Նմուշների չափը և MDE (պարզեցված)

Մոտավոր ՝ որքան ցածր է հակադարձումը և որքան քիչ ազդեցություն ունի, այնքան ավելի շատ ընտրություն կա։

CR-ի համար 10 տոկոսը և MDE-ը հարաբերական էֆեկտի + 5 տոկոսը հաճախ տասնյակ հազարավոր դիտարկումներ են պահանջում տարբերակի վրա։

Տևողությունը

Կենտրոնացեք վարքագծի ամբողջական ցիկլի վրա + պահուստ (սովորաբար 2-4 շաբաթ) կամ մինչև պլանավորված հզորության հասնելը։ Մի՛ կանգնեցրեք թեստը։

Ramp-ap (աստիճանական եզրակացություն)

Նոյեմբերի 1-5 տոկոսը (canary) 10-25 տոկոսն է, 50 տոկոսը '100%, guardrails մոնինգով։

Տվյալների որակը և վավերականությունը

SRM (Sample Ratio Mismatch)

Պլանավորվում է, որ կոդավորման իրական բաշխումը (A/B) համապատասխանում է պլանավորված (օրինակ, 50/50)։ Կարևոր շեղումները = ներառման/դրոշների/բոտերի խնդիրը։

Ինքնություն և քրոս-դեյվիս

Օգտագործեք կայուն user _ id; հաշվի առեք cross սարքերը, cookie-decay-ը, ավելի ուշ ձագը։

Բոտերն ու անոմալիան

Ֆիլտրեք անթիվ փամփուշտներ (գերարագ կլիկներ, որոնք բացակայում են user-105, ոչ որակյալ ռեֆերերներ)։

Սեզոնայնությունը և իրադարձությունները

Մի սկսեք թեստերը ուժեղ «աննորմալ» ժամանակահատվածների վրա (արձակուրդներ/վաճառքներ), եթե դա թեստի նպատակը չէ։

Վիճակագրական վերլուծություն

Հաճախականության մոտեցում (դասական)

Գրանցեք ալֆան (սովորաբար 0,07) և ուժը (սովորաբար 80 տոկոսը)։

Մի «նայեք» յուրաքանչյուր ժամվա ընթացքում առանց օպտիկայի 'կեղծ դրական վտանգի։

Բազմաթիվ մետրի/տարբերակների համար օգտագործեք կոմպոզիցիաներ (Bonfer.i/Holm/Hochberg) կամ մետրի հիերարխիա։

Բայեսյան մոտեցումը

Գնահատում է ազդեցության հավանականության բաշխումը և տարբերակի գերակայության հավանականությունը։

Հարմար է իրական ժամանակում մոնիտորինգի և լուծումների կայացման համար «բավականին լավ»։

CUPED/կովարիատներ

Ցրման նվազումը նախածննդյան կովարիատների պատճառով (օրինակ, անցյալ շաբաթվա ընթացքում ակտիվությունը) ավելի արագ է հասնում ուժը։