Diferença entre o teste G e o teste t e qual deve ser usada para o teste A / B?

8

O G-Test é uma maneira de obter estimativas rápidas de uma distribuição quadrado chi, e é recomendado pelo autor deste tutorial bem conhecido teste A / B .

Essa ferramenta assume uma distribuição normal e usa diferenças de meios para calcular a confiança.

Qual é a diferença entre um teste G e um teste T? Quais são os benefícios ou desvantagens de usar cada método para medir a eficácia de nossos testes A / B?

Estou tentando descobrir qual deles devo usar para medir os resultados da minha estrutura de teste A / B. Nossa estrutura possui dois casos de uso geral: divida o grupo de visitantes uniformemente, mostre a cada um um recurso diferente e avalie sua conversão em outra página (por exemplo, a página de inscrição); e divida o grupo de visitantes no grupo controle (90%) e no grupo experimental (10%) para um teste e avalie as conversões em outra página.

Nosso site recebe entre 1000 e 200.000 visitas por dia (estou sendo vago de propósito para ocultar o número verdadeiro, o que não muda muito). Essas visitas são divididas com uma distribuição exponencial em cerca de 300 páginas.

Obrigado Kevin

confidence-interval ab-test

— Kevin Burke
fonte

4

A randomização de visitantes (ou seja, 50:50 de chance de controle ou tratamento experimental) é geralmente um bom design , supondo que seu tratamento experimental não faça nada de terrível aos visitantes. Além disso, 1000-200.000 é uma grande variedade; existe alguma razão para pensar que os visitantes em dias tranquilos / ocupados seriam (em média) afetados diferentemente pelo controle / tratamento experimental?

— guest

Olá, O intervalo é vago, porque eu preferiria não compartilhar o número real. As flutuações entre dias não são grandes.

— 22612 Kevin Burke

Oi Kevin. Gostaria de saber se você poderia esclarecer um ponto para mim. O título pergunta sobre a diferença entre um teste e um teste . Ao ler a pergunta, ela quase lê como se você estivesse interessado em qual dos dois tipos de divisão de amostra usar. De fato, parece que a única resposta atualmente postada interpretou as perguntas em relação à segunda. Você pode resolver isso brevemente? Felicidades.

G

$G$

t

$t$

— cardeal

Estou mais interessado na diferença entre um teste G e um teste T, atualizará a pergunta para esclarecer.

— Kevin Burke

8

Em geral, o teste que é menos aproximado no cálculo das estatísticas de teste é melhor, embora todos convergam para os mesmos resultados com o aumento do tamanho da amostra.

Portanto, como os testes A / B geralmente se concentram em resultados binários, ...

Resposta curta:

Use o teste G, porque é menos aproximado.

Resposta longa:

O teste t, em A / B, testa o caso de tamanhos de amostra desiguais e variância desigual , aproxima a diferença de duas distribuições com uma distribuição t, que é questionável por si mesma . As duas distribuições podem ser desconhecidas, mas considera-se que sua média e variação são suficientes para descrevê-la (caso contrário, qualquer conclusão não ajudará muito), o que é claro para a distribuição normal.

No caso especial de resultado binário, a distribuição binomial pode ser aproximada com uma distribuição normal com $\mu=np,\sigma^2=np(1-p)$ , que é válido para $n*p*(1-p)\geq9$ (regra geral, $n$ = ensaios, $p$ = taxa de sucesso).

Portanto, em resumo, embora seja correto aplicar o teste t, são realizadas duas aproximações para transformar o caso binomial em um caso mais genérico, o que não é necessário aqui, uma vez que testes menos aproximados como o teste G ou (melhor ainda) ) O teste exato de Fisher está disponível para este caso especial. O teste exato de Fisher deve ser aplicado especialmente se o tamanho da amostra for menor que 20 (outra regra do polegar), mas acho que isso não importa em um teste A / B sólido.

— Steffen
fonte

Não sigo exatamente sua regra de ouro para a aproximação normal; Gostaria de saber se há um erro de digitação. Conforme escrito, a regra se aplicaria muito mais rapidamente a

p = .9

$p=.9$ do que

p = .1

$p=.1$ .

— gung - Restabelece Monica

@ Gung obrigado por apontar isso, foi um erro de digitação. Btw: usado Referência é Hartung: Statistik, Oldenbourg 14a edição (infelizmente só está disponível em alemão)

— Steffen

5

A página de Ben Tilly que você mencionou é um excelente resumo dos testes A / B para iniciantes. À medida que você entra em questões mais detalhadas / problemas de design do estudo, vale a pena procurar fontes primárias mais detalhadas. Kohavi et al publicaram um artigo seminal sobre testes AB, que é uma boa combinação de abrangência e legibilidade. Eu recomendo: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .

De volta às suas perguntas, as perguntas reais que você deve se perguntar são:

Quantas impressões eu preciso obter nos tratamentos e controle para que o resultado seja significativamente significativo?
Qual é o tamanho mínimo de efeito que me preocupa? Você está interessado em tratamentos que sejam pelo menos 5% melhores que os controles ou 0,005% melhores?
No caso de múltiplos tratamentos, existe um cenário para comparar tratamentos entre si ou é suficiente comparar cada tratamento com o controle?
Quais variáveis são importantes para medir para garantir que os grupos de tratamento não sejam afetados pelos efeitos colaterais não intencionais de seu experimento. O artigo de Kohavi tem um ótimo exemplo disso em termos de desempenho do site: se sua experiência de tratamento for mais lenta, controle-a por qualquer motivo (mais imagens, servidor diferente, código rápido e sujo), isso pode prejudicar seriamente o teste.
Faz mais sentido registrar usuários ou impressões nas experiências? Em outras palavras, faz sentido garantir que o usuário sempre obtenha experiência de controle ou tratamento durante o período da sessão / teste, ou você pode registrar cada impressão da página no teste de forma independente?

À medida que você trabalha com essas perguntas, você acaba tendo uma melhor compreensão dos parâmetros de teste. Combinado com o conhecimento do seu domínio (por exemplo, se o seu site apresenta um forte padrão cíclico que você deseja controlar), apetite por expor os usuários a experimentos (você está realmente disposto a mostrar a experiência do tratamento para muitos usuários ou prefere conter o dano potencial) e a velocidade desejada para obter resultados, esse entendimento o guiará para determinar como dividir o tráfego geral entre controles e tratamentos.

Detesto responder a perguntas específicas com "depende", mas, neste caso, depende realmente do que está acontecendo com o site e a experiência. Sob certas condições, não fará diferença significativa dividir o tráfego 50/50 ou 90/10, enquanto em circunstâncias diferentes isso pode ser muito importante. YMMV, mas uma boa referência como o artigo citado acima definitivamente o levará na direção certa.

— Inverseofverse
fonte

3

Obrigado por uma resposta atenciosa e útil. Sei que você está aqui há alguns meses, mas como esta é sua primeira resposta, parece uma boa ocasião para recebê-lo no site. Espero que você se sinta inspirado a oferecer mais conselhos com o passar do tempo!

— whuber

4

Não posso comentar na postagem original porque não tenho pontos do StackExchange ou o que quer, mas eu só queria ressaltar que, para o valor p, o ABBA não usa um simples teste Z baseado em aproximação normal, embora eu possa veja como você pode pensar isso a partir de uma breve leitura da página. O ABBA usa estatísticas binomiais exatas até o tamanho da amostra 100, além do que depende da aproximação normal com uma correção de continuidade. Eu não vi casos em que isso difere muito dos testes "menos aproximados", mas eu estaria muito interessado em ver esses casos se você os encontrar.

Não há distribuições t ou testes t presentes em nenhum caso.

Para intervalos de confiança, ele sempre se baseia em uma aproximação normal, embora use o método Agresti-Coull, que funciona muito bem.

— Steve
fonte