Estudei estatística anos atrás e esqueci tudo, então podem parecer questões conceituais gerais do que qualquer coisa específica, mas aqui está o meu problema.
Trabalho em um site de comércio eletrônico como UX Designer. Temos uma estrutura de teste A / B que foi construída anos atrás e estou começando a duvidar disso.
A métrica em que tomamos todas as nossas decisões é conhecida como conversão e é baseada na porcentagem de usuários que visitam o site, e acaba comprando alguma coisa.
Portanto, queremos testar a alteração da cor do botão Comprar de verde para azul.
O controle é o que já temos, o botão Verde, onde sabemos qual é a nossa taxa de conversão média. O experimento está substituindo o botão verde pelo botão azul.
Concordamos que 95% de significância é o nível de confiança com que estamos satisfeitos e ativamos o experimento e o deixamos em execução.
Quando os usuários visitam o site, nos bastidores, há uma chance de 50/50 de serem enviados para a versão de controle (botão verde) versus a versão experimental (botão azul).
Depois de analisar o experimento após 7 dias, vejo um aumento de 10,2% na conversão em favor do experimento, com um tamanho de amostra de 3000 (1500 indo para o controle, 1500 para o experimento) e uma significância estatística de 99,2%. Excelente eu acho.
O experimento continua, o tamanho da amostra aumenta e, em seguida, vejo um aumento de + 9% na conversão, com um significado de 98,1%. Ok, mantenha o experimento em execução por mais tempo e agora o experimento mostra apenas um aumento de 5% na conversão com uma significância estatística de apenas 92%, com a estrutura me dizendo que preciso de mais 4600 amostras antes de atingir 95% de significância?
Em que ponto o experimento é conclusivo, então?
Se eu pensar em dizer um processo de ensaio clínico em que você concorda com o tamanho da amostra antecipadamente e ao concluir o experimento, você vê uma melhoria de 10% em qualquer métrica com significância de 99%, então é tomada a decisão de que esse medicamento vá ao mercado. Mas se eles tivessem feito o experimento em 4.000 pessoas e virem uma melhoria de 5% de qualquer métrica para apenas 92% de significância, esse medicamento não teria permissão para entrar no mercado.
Devemos concordar com o tamanho da amostra com antecedência e parar quando o tamanho da amostra for atingido e ficar satisfeitos com os resultados se a significância for de 99% no momento de desativar o experimento?