Estou tentando entender o raciocínio escolhendo uma abordagem de teste específica ao lidar com um teste A / B simples - (ou seja, duas variações / grupos com uma resposta binária (convertida ou não) .Como exemplo, usarei os dados abaixo
Version Visits Conversions
A 2069 188
B 1826 220
A resposta principal aqui é ótima e fala sobre algumas das suposições subjacentes aos testes z, t e chi quadrado. Mas o que acho confuso é que diferentes recursos online citarão abordagens diferentes, e você pensaria que as suposições para um teste A / B básico devem ser praticamente as mesmas?
- Por exemplo, este artigo usa o z-score :
- Este artigo usa a seguinte fórmula (que não tenho certeza se é diferente do cálculo do zscore?):
- Este artigo faz referência ao teste t (p 152):
Então, que argumentos podem ser feitos em favor dessas diferentes abordagens? Por que alguém teria uma preferência?
Para lançar mais um candidato, a tabela acima pode ser reescrita como uma tabela de contingência 2x2, onde o teste exato de Fisher (p5) pode ser usado
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Mas, de acordo com este tópico , o teste exato de Fisher deve ser usado apenas com amostras menores (qual é o limite?)
E há testes t e z emparelhados, teste f (e regressão logística, mas quero deixar isso de fora por enquanto) .... Sinto que estou me afogando em diferentes abordagens de teste e só quero poder faça algum tipo de argumento para os diferentes métodos neste caso de teste A / B simples.
Usando os dados de exemplo, estou obtendo os seguintes valores p
https://vwo.com/ab-split-test-significance-calculator/ fornece um valor p de 0,001 (escore z)
http://www.evanmiller.org/ab-testing/chi-squared.html (usando o teste do qui quadrado) fornece um valor-p de 0,00259
E em R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
dá um valor-p de 0,002785305
Que eu acho que são todos bem próximos ...
Enfim - apenas esperando uma discussão saudável sobre quais abordagens usar nos testes on-line, onde os tamanhos das amostras geralmente estão na casa dos milhares, e as taxas de resposta geralmente são 10% ou menos. Meu instinto está me dizendo para usar o qui-quadrado, mas quero ser capaz de responder exatamente por que o escolhi entre as várias outras maneiras de fazê-lo.