A/B इंटरफ़ेस परीक्षण
परिचय
A/B परीक्षण एक नियंत्रित प्रयोग है जहां एक इंटरफ़ेस के दो (या अधिक) संस्करणों की तुलना वास्तविक उपयोगकर्ताओं पर यह समझने के लिए की जाती है कि कौन सा संस्करण बेहतर उत्पाद मैट्रिक्स की ओर जाता है। लक्ष्य निर्णय लेने में अनिश्चितता को कम करना और राय के बजाय सत्यापन योग्य परिवर्तनों के माध्यम से यूएक्स में सुधार करना है।
जब A/B परीक्षण उपयुक्त हो
एक औसत दर्जे का लक्ष्य है (रूपांतरण, कार्रवाई का समय, पकड़, एनपीएस, कार्य गति)।
अपेक्षित प्रभाव स्पष्ट नहीं है या खंड द्वारा भिन्न हो सकता है।
प्रयोग को सही ठहराने के लिए परिवर्तन का जोखिम काफी अधिक है।
ट्रैफिक आपको जल्दी से सांख्यिकीय महत्वपूर्ण नमूना एकत्र करने की अ
जब परीक्षण नहीं करना बेहतर होता है: अंडरस्क्रीन पर माइक्रोकोपी, मजबूत नेटवर्क/सामाजिक निर्भरता (प्रभावों का अतिप्रवाह) के साथ सुविधाएँ, संपादन जिन्हें उपयोगकर्ताओं के दीर्घकालिक प्रशिक्षण की आवश्यकता होती है।
परिकल्पना निर्माण
साँचा:- यदि हम [Y-सेगमेंट/सभी] के लिए इंटरफ़ेस में [X] बदलते हैं, तो [Z मीट्रिक] [दिशा/परिमाण] में बदल जाएगा क्योंकि [व्यवहार कारण]।
उदाहरण: यदि आप क्रीज लाइन के ऊपर मुख्य सीटीए को स्थानांतरित करते हैं और 6 से 3 क्षेत्रों में आकार कम करते हैं, तो घर्षण में कमी के कारण प्राथमिक कार्रवाई का सीआर + 3-5% बढ़ जाएगा।
मेट्रिक्स: लक्ष्य और रक्षात्मक
प्राथमिक: एक कुंजी - उदाहरण के लिए, लक्ष्य स्क्रिप्ट पूर्णता/
द्वितीयक: स्क्रॉलिंग गहराई, सीटीआर, कार्रवाई का समय, त्रुटियाँ, पृष्ठ गति।
गार्ड (सुरक्षात्मक): प्रदर्शन स्थिरता (टीटीएफबी, एलसीपी), रिटर्न/इनकार, शिकायत/रोलबैक, अधिसूचना सीमा के अनुपालन, उपलब्धता।
एमडीई (न्यूनतम पता लगाने योग्य प्रभाव), अवलोकन विंडो और अग्रिम में सफलता मानदंड को ठीक करने की सिफारिश की जाती है।
प्रयोग डिजाइन
यादृच्छिक विश्लेषण और इकाई
यादृच्छिक इकाई: उपयोगकर्ता (user_id), कभी-कभी सत्र या संगठन (क्लस्टर)।
स्तरीकरण/अवरोधन: युक्ति/चैनल द्वारा यदि मजबूत अंतर हैं।
जब एक समूह का व्यवहार दूसरे को प्रभावित करता है (उदाहरण के लिए, साझा सूची/टेप)। ऐसे मामलों में, क्लस्टर परीक्षण।
नमूना आकार और एमडीई (सरलीकृत)
अनुमानित: मूल रूपांतरण कम और प्रभाव जितना छोटा होगा, नमूना उतना बड़ा होगा।
सीआर ~ 10% और एमडीई ~ + 5% सापेक्ष प्रभाव के लिए, प्रति संस्करण हजारों अवलोकन अक्सर आवश्यक होते हैं।
अवधि
पूर्ण साप्ताहिक व्यवहार चक्र + मार्जिन (आमतौर पर 2-4 सप्ताह) या नियोजित क्षमता तक पहुंचने समय से पहले परीक्षण बंद न करें।
रैंप-अप (धीरे-धीरे वापसी)
रेलिंग निगरानी के साथ 1-5% ट्रैफ़िक (कैनरी) → 10-25% → 50% → 100%।
डेटा गुणवत्ता और वैधता
एसआरएम (नमूना अनुपात मिसमैच)
सत्यापित करें कि वास्तविक यातायात वितरण (ए/बी) योजना के अनुसार है (उदाहरण के लिए, 50/50)। महत्वपूर्ण विचलन = समावेश/ध्वज/बॉट समस्या।
पहचान और क्रॉस-डिवाइस
एक स्थिर user_id का उपयोग करें; क्रॉस-डिवाइस, कुकी-क्षय, बाद में फ़नल में प्राधिकरण पर विचार करें।
बॉट्स और विसंगतियाँ
अप्राकृतिक पैटर्न (सुपर-फास्ट क्लिक, लापता उपयोगकर्ता एजेंट, अमान्य रेफरर) को फ़िल्टर करें।
मौसमी और घटनाएँ
मजबूत "असामान्य" अवधि (छुट्टियों/बिक्री) के लिए परीक्षण न चलाएं जब तक कि यह परीक्षण का उद्देश्य न हो।
सांख्यिकीय विश्लेषण
आवृत्ति दृष्टिकोण (क्लासिक)
अल्फा को ठीक करें (आमतौर पर 0। 05) और शक्ति (आमतौर पर 80%)।
समायोजन के बिना हर घंटे "पीप" न करें - झूठी सकारात्मकता का जोखिम।
कई मैट्रिक्स/वेरिएंट के लिए, समायोजन (बोनफेरोनी/होल्म/होचबर्ग) या मेट्रिक्स का पदानुक्रम लागू करें।
बायेसियन दृष्टिकोण
प्रभाव की संभावना वितरण और संस्करण की श्रेष्ठता की संभावना का अनुमान लगाता है।
वास्तविक समय की निगरानी और "अच्छा पर्याप्त" निर्णय लेने के लिए सुविधाजनक।
CUPED/covariates
पूर्व-परीक्षण सहसंयोजक (जैसे, पिछले सप्ताह "एस गतिविधि) के कारण भिन्नता में कमी → तेजी से शक्ति प्राप्त की जाती है।