A/B teste de interface
Introdução
A/B teste é uma experiência controlada, onde duas (ou mais) versões da interface são comparadas em usuários reais para entender qual versão leva a melhores métricas de alimentos. O objetivo é reduzir a incerteza na tomada de decisões e melhorar a UX através de mudanças verificáveis, em vez de opiniões.
Quando o teste A/B for apropriado
Há um objetivo mensurável (conversão, tempo de ação, retenção, NPS, velocidade de tarefa).
O efeito esperado não é claro ou pode variar em segmentos.
O risco de mudança é alto o suficiente para justificar a experiência.
O tráfego permite uma amostra estatisticamente significativa.
Quando é melhor não testar: microcópias em telas pouco utilizadas, fichas com forte dependência da rede/social (redesenhando efeitos), edições que exigem treinamento prolongado dos usuários.
Formulação de hipótese
Modelo:- Se mudarmos [X na interface] para [o segmento Y/todos], [a métrica Z] mudará para [a direção/o valor] porque [a causa comportamental].
Exemplo: se você transferir o CTA principal acima da linha de dobradura e reduzir a forma de 6 para 3 campos, o CR de ação primária aumentará em + 3-5%, reduzindo a fricção.
Métricas: destino e proteção
Primary (principal): uma chave - por exemplo, a conclusão do cenário de destino/conversão.
Segundary: profundidade do scroll, CTR, tempo até a ação, erros, velocidade da página.
Guardrails (proteção): estabilidade de desempenho (TTFB, LCP), devoluções/falhas, queixas/retrocessos, cumprimento de limites de notificação, disponibilidade.
É recomendado que o MDE (efeito mínimo de detecção), a janela de observação e os critérios de sucesso sejam fixados com antecedência.
Design da experiência
Randomização e unidade de análise
Unidade de randomização: usuário (user _ id), às vezes, sessão ou organização (cluster).
Rateio/bloqueio: por dispositivos/canais, se houver diferenças fortes.
Substituindo (interference): evite que o comportamento de um grupo afete o outro (por exemplo, listas gerais/fitas). Nestes casos, testes de cluster.
Tamanho de amostra e MDE (simplificado)
Próximo, quanto menor a conversão básica e menor o efeito, maior a amostra.
Para CR £10% e MDE £ + 5% de efeito relativo, muitas vezes você precisa de dezenas de milhares de observações por opção.
Duração
Fique focado em um ciclo completo de comportamento de uma semana + reserva (normalmente de 2 a 4 semanas) ou até atingir a capacidade prevista. Não pare o teste prematuramente.
Rampo-up (saída gradual)
1-5% do tráfego (canary) → 10-25% → 50% → 100%, monitorado por guardas.
Qualidade e validade dos dados
SRM (Sample Ratio Mismatch)
Verifique se a distribuição real de tráfego (A/B) corresponde ao programado (por exemplo, 50/50). Desvios significativos = problema de inclusão/bandeiras/bots.
Identidade e Cross-device
Use um usuário _ id estável; leve em conta os dispositivos cruzados, cookies-decay, permissão mais tarde no vórtice.
Bots e anomalias
Filtre patterns não naturais (cliques de alta velocidade, agentes de user ausentes, refereres de nevalida).
Sazonalidade e eventos
Não inicie testes para períodos «anormais» (feriados/vendas) se este não for o objetivo do teste.
Análise estatística
Abordagem de frequência (clássico)
Fixe alfa (normalmente 0,05) e potência (normalmente 80%).
Não «olhem» a cada hora, sem ajustes - risco de falsidade.
Para várias métricas/opções, aplique ajustes (Bonferroni/Holm/Hochberg) ou uma hierarquia de métricas.
Abordagem Baiesa
Avalia a distribuição da probabilidade de efeito e a probabilidade de superação.
Fácil de monitorar em tempo real e tomar decisões «bastante bem».
CUPED/tapetes
A redução da dispersão através de cobiçados pré-eleitorais (por exemplo, atividade na semana passada) é mais rápida.