A/B ინტერფეისის ტესტირება

შესავალი

A/B ტესტირება არის კონტროლირებადი ექსპერიმენტი, სადაც ინტერფეისის ორი (ან მეტი) ვერსია შედარებულია რეალურ მომხმარებლებზე, იმის გასაგებად, თუ რომელი ვერსია იწვევს საუკეთესო პროდუქტის მეტრებს. მიზანია გადაწყვეტილების მიღებაში გაურკვევლობის შემცირება და UX- ის გაუმჯობესება დადასტურებული ცვლილებების გზით და არა მოსაზრებებით.

როდესაც შესაფერისია A/B ტესტირება

არსებობს გაზომილი მიზანი (კონვერტაცია, მოქმედების დრო, გამართვა, NPS, დავალების სიჩქარე).
მოსალოდნელი ეფექტი აშკარა არ არის ან შეიძლება განსხვავდებოდეს სეგმენტებში.
ცვლილების რისკი საკმაოდ მაღალია ექსპერიმენტის გასამართლებლად.
ტრეფიკი საშუალებას გაძლევთ სწრაფად შეაგროვოთ სტატისტიკურად მნიშვნელოვანი ნიმუში.

როდესაც უმჯობესია არ გამოსცადოთ: მიკროკოპიები გამოუყენებელ ეკრანებზე, ფიჩები ძლიერი ქსელის/სოციალური დამოკიდებულებით (ეფექტების გადაჭარბებით), რედაქტორები, რომლებიც მოითხოვს მომხმარებლების ხანგრძლივ ვარჯიშს.

ჰიპოთეზის ფორმულირება

შაბლონი:

თუ ჩვენ შევცვლით [X ინტერფეისს] [Y- სეგმენტი/ყველა], მაშინ [მეტრიკა Z] შეიცვლება [მიმართულება/მნიშვნელობა], რადგან [ქცევითი მიზეზი].

მაგალითი: თუ ძირითადი CTA გადაადგილების ხაზის ზემოთ გადადის და ფორმას 6-დან 3 ველში ამცირებს, მაშინ პირველადი მოქმედების CR გაიზრდება + 3-5% -ით ხახუნის შემცირების გამო.

მეტრიკა: მიზნები და დამცავი

Primary (მთავარი): ერთი საკვანძო - მაგალითად, სამიზნე სცენარის დასრულება/კონვერტაცია.
მეორე: ფრჩხილის სიღრმე, CTR, მოქმედების დრო, შეცდომა, გვერდის სიჩქარე.
Guardrails (დამცავი): შესრულების სტაბილურობა (TTFB, LCP), ანაზღაურება/უარყოფა, საჩივრები/გამოხმაურებები, შეტყობინებების შეზღუდვების დაცვა, წვდომა.

რეკომენდებულია წინასწარ დაფიქსირება MDE (მინიმალური გამოვლენილი ეფექტი), სათვალთვალო ფანჯარა და წარმატების კრიტერიუმები.

ექსპერიმენტის დიზაინი

რანდომიზაცია და ანალიზის ერთეული

რანდომიზაციის ერთეული: მომხმარებელი (user _ id), ზოგჯერ სესია ან ორგანიზაცია (კასეტა).
სტრატიფიკაცია/დაბლოკვა: მოწყობილობებით/არხებით, თუ არსებობს ძლიერი განსხვავებები.
გადინება: თავიდან აიცილეთ, როდესაც ერთი ჯგუფის ქცევა გავლენას ახდენს მეორეზე (მაგალითად, ზოგადი სიები/ფირები). ასეთ შემთხვევებში - კლასტერული ტესტები.

ნიმუშის ზომა და MDE (გამარტივებული)

სავარაუდოა: რაც უფრო დაბალია ძირითადი კონვერტაცია და რაც უფრო ნაკლებია ეფექტი, მით უფრო დიდია ნიმუში.
CR ~ 10% და MDE ~ + 5% შედარებით ეფექტისთვის ხშირად საჭიროა ათობით ათასი დაკვირვება ვარიანტზე.

ხანგრძლივობა

ფოკუსირება მოახდინეთ ქცევის სრულ ყოველკვირეულ ციკლზე + რეზერვზე (ჩვეულებრივ, 2-4 კვირა) ან სანამ არ მიაღწევს დაგეგმილ ენერგიას. ნუ შეაჩერებთ ტესტს ნაადრევად.

Ramp-ap (თანდათანობითი დასკვნა)

1-5% ტრაფიკი (ტრაფიკი) - 10-25% - 50% - 100%, guardrails მონიტორინგით.

მონაცემთა ხარისხი და შესაბამისობა

SRM (Sample Ratio Mismatch)

შეამოწმეთ, რომ ტრეფიკის ფაქტობრივი განაწილება (A/B) შეესაბამება დაგეგმილ (მაგალითად, 50/50). მნიშვნელოვანი გადახრები = ინკლუზიის/დროშების/ბოტების პრობლემა.

თვითმყოფადობა და ჯვარედინი მოწყობილობა

გამოიყენეთ სტაბილური მომხმარებლის _ id; გაითვალისწინეთ ჯვარედინი მოწყობილობები, cookie-decay, დამტკიცება მოგვიანებით ძაბრში.

ბოტები და ანომალიები

გაფილტრეთ არაბუნებრივი ნიმუშები (ულტრაბგერითი კლიშეები, არ არსებობს მომხმარებელთა აგენტები, არასასურველი რეფერერები).

სეზონური და მოვლენები

ნუ დაიწყებთ ტესტებს ძლიერ „არანორმალურ“ პერიოდებზე (არდადეგები/გაყიდვები), თუ ეს არ არის ტესტის მიზანი.

სტატისტიკური ანალიზი

სიხშირის მიდგომა (კლასიკური)

დააფიქსირეთ ალფა (ჩვეულებრივ 0.05) და ძალა (ჩვეულებრივ 80%).
ნუ „უყურებთ“ ყოველ საათს კორექტირების გარეშე - ცრუ პოზიტიური რისკი.
მრავლობითი მეტრიკის/ვარიანტებისთვის გამოიყენეთ კორექტირება (Bonferroni/Holm/Hochberg) ან მეტრიკის იერარქია.

ბაიესოვსკის მიდგომა

აფასებს ეფექტის ალბათობის განაწილებას და ვარიანტის უპირატესობის ალბათობას.
მოსახერხებელია რეალურ დროში მონიტორინგისთვის და გადაწყვეტილების მისაღებად „საკმაოდ კარგი“.

CUPED/კოვარიატები

წინამორბედი კოვარიატების გამო დისპერსიის დაქვეითება (მაგალითად, გასული კვირის აქტივობა), ძალა უფრო სწრაფად მიიღწევა.