A/B ինտերֆեյսների փորձարկում
Ներածություն
A/B թեստավորումը վերահսկվող փորձ է, որտեղ ինտերֆեյսի երկու (կամ ավելի) տարբերակները համեմատվում են իրական պարամետրերի վրա, որպեսզի հասկանան, թե որ տարբերակն է հանգեցնում լավագույն ապրանքային չափումների։ Նպատակն է նվազեցնել անորոշությունը որոշումների կայացման ժամանակ և բարելավել UX-ը ստուգված փոփոխությունների միջոցով, ոչ թե կարծիքների միջոցով։
Երբ տեղին է A/B թեստավորումը
Կա չափված նպատակ (փոխակերպում, ժամանակ մինչև գործողությունը, պահպանումը, NPS-ը, խնդրի արագությունը)։
Ակնկալվող էֆեկտը աննկատ է կամ կարող է տարբերվել հատվածներով։
Փոփոխության ռիսկը բավականին բարձր է, որպեսզի արդարացնի փորձը։
Մոսկվան թույլ է տալիս արագ հավաքել վիճակագրորեն նշանակալի ընտրություն։
Երբ ավելի լավ է չտեսնել 'միկրոկոպիա օգտագործվող էկրանների վրա, ուժեղ ցանցային/սոցիալական կախվածությամբ ֆիտներ (փոխելով էֆեկտները), ուղղություններ, որոնք պահանջում են օգտագործողների երկար ուսուցում։
Հիպոթեզի ձևակերպումը
Ձևանմուշներ
Եթե մենք փոխենք [X ինտերֆեյսը] [Y-210/բոլորի համար], ապա [մետրը Z] կփոխվի [ուղղությունը/մեծությունը] քանի որ [վարքագծային պատճառը]։
Օրինակ, եթե հիմնական CTA-ն տեղափոխվի ճեղքման գծից վերև և նվազեցնի ձևը 6-ից 3 դաշտերի, ապա CR-ն առաջնային գործողությունը կաճի + 3-5 տոկոսով 'շփման նվազման պատճառով։
Մետրիկները ՝ պաշտպանիչ
Primary (հիմնական) 'մեկ հիմնական, օրինակ, ռուսական սցենարի ավարտը/կոնվերսիան։
Secondary: Sproll խորությունը, CTR, ժամանակը մինչև գործողությունը, սխալները, էջի արագությունը։
Guardrails (պաշտպանիչ) 'արտադրողականության բարձրացում (TTFB, LCP), բարձրացումներ/մերժումներ, բողոքներ/արձագանքներ, ծանուցումների սահմանների պահպանումը, հասանելիությունը։
Առաջարկվում է նախապես տեղադրել MDE (նվազագույն դետեկտիվ ազդեցություն), դիտման պատուհանը և հաջողության չափանիշները։
Փորձի դիզայն
Ռանդոմիզացիան և վերլուծության միավորը
Ռանդոմիզացիայի միավորը 'օգտագործողը (user _ id), երբեմն' նստաշրջան կամ կազմակերպություն (կլաստեր)։
Ստրատիֆիկացիան/արգելափակումը 'սարքերի/շարժիչների վրա, եթե կան ուժեղ տարբերություններ։
Փոխելով (interference) 'խուսափեք, երբ մեկ խմբի վարքագիծը ազդում է մյուսի վրա (օրինակ, ընդհանուր ցուցակները/ժապավենը)։ Նման դեպքերում կլաստերային թեստեր են։
Նմուշների չափը և MDE (պարզեցված)
Մոտավոր ՝ որքան ցածր է հակադարձումը և որքան քիչ ազդեցություն ունի, այնքան ավելի շատ ընտրություն կա։
CR-ի համար 10 տոկոսը և MDE-ը հարաբերական էֆեկտի + 5 տոկոսը հաճախ տասնյակ հազարավոր դիտարկումներ են պահանջում տարբերակի վրա։
Տևողությունը
Կենտրոնացեք վարքագծի ամբողջական ցիկլի վրա + պահուստ (սովորաբար 2-4 շաբաթ) կամ մինչև պլանավորված հզորության հասնելը։ Մի՛ կանգնեցրեք թեստը։
Ramp-ap (աստիճանական եզրակացություն)
Նոյեմբերի 1-5 տոկոսը (canary) 10-25 տոկոսն է, 50 տոկոսը '100%, guardrails մոնինգով։
Տվյալների որակը և վավերականությունը
SRM (Sample Ratio Mismatch)
Պլանավորվում է, որ կոդավորման իրական բաշխումը (A/B) համապատասխանում է պլանավորված (օրինակ, 50/50)։ Կարևոր շեղումները = ներառման/դրոշների/բոտերի խնդիրը։
Ինքնություն և քրոս-դեյվիս
Օգտագործեք կայուն user _ id; հաշվի առեք cross սարքերը, cookie-decay-ը, ավելի ուշ ձագը։
Բոտերն ու անոմալիան
Ֆիլտրեք անթիվ փամփուշտներ (գերարագ կլիկներ, որոնք բացակայում են user-105, ոչ որակյալ ռեֆերերներ)։
Սեզոնայնությունը և իրադարձությունները
Մի սկսեք թեստերը ուժեղ «աննորմալ» ժամանակահատվածների վրա (արձակուրդներ/վաճառքներ), եթե դա թեստի նպատակը չէ։
Վիճակագրական վերլուծություն
Հաճախականության մոտեցում (դասական)
Գրանցեք ալֆան (սովորաբար 0,07) և ուժը (սովորաբար 80 տոկոսը)։
Մի «նայեք» յուրաքանչյուր ժամվա ընթացքում առանց օպտիկայի 'կեղծ դրական վտանգի։
Բազմաթիվ մետրի/տարբերակների համար օգտագործեք կոմպոզիցիաներ (Bonfer.i/Holm/Hochberg) կամ մետրի հիերարխիա։
Բայեսյան մոտեցումը
Գնահատում է ազդեցության հավանականության բաշխումը և տարբերակի գերակայության հավանականությունը։
Հարմար է իրական ժամանակում մոնիտորինգի և լուծումների կայացման համար «բավականին լավ»։
CUPED/կովարիատներ
Ցրման նվազումը նախածննդյան կովարիատների պատճառով (օրինակ, անցյալ շաբաթվա ընթացքում ակտիվությունը) ավելի արագ է հասնում ուժը։