Por que é errado interromper um teste A / B antes que o tamanho ideal da amostra seja atingido?


13

Sou responsável por apresentar os resultados dos testes A / B (executados em variações de sites) na minha empresa. Executamos o teste por um mês e, em seguida, verificamos os valores de p em intervalos regulares até atingirmos o significado (ou abandonamos se o significado não for alcançado após a execução do teste por um longo tempo), algo que estou descobrindo agora é uma prática equivocada .

Quero interromper essa prática agora, mas, para fazer isso, quero entender POR QUE isso está errado. I compreender que o tamanho do efeito, o tamanho da amostra (N), o critério de significância alfa (α) e poder estatístico, ou o beta escolhido ou implícita (β) são matematicamente relacionadas. Mas o que exatamente muda quando paramos o teste antes de atingirmos o tamanho de amostra necessário?

Eu li alguns posts aqui (ou seja , isso , isso e isso ), e eles me dizem que minhas estimativas seriam tendenciosas e a taxa do meu erro tipo 1 aumenta drasticamente. Mas como isso acontece? Estou procurando uma explicação matemática , algo que mostre claramente os efeitos do tamanho da amostra nos resultados. Acho que tem algo a ver com as relações entre os fatores que mencionei acima, mas não consegui descobrir as fórmulas exatas e resolvê-las por conta própria.

Por exemplo, interromper o teste prematuramente aumenta a taxa de erro do Tipo 1. Bem. Mas por que? O que acontece para aumentar a taxa de erro do tipo 1? Estou sentindo falta da intuição aqui.

Ajuda por favor.



1
Sim, eu passei por esse link, mas simplesmente não entendi o exemplo dado.
Sgk 8/16

desculpe Gopalakrishnan - não tinha visto que seu primeiro link já apontava para isso.
precisa saber é

1
P(i1Nxi>θ)P(xN>θ)

@GopalakrishnanShanker explicação matemática dada na minha resposta
tomka

Respostas:


4

αα

n1

αt

P(A)=1(1α)t,
A1como você repetidamente a / b teste. Se você simplesmente parar após o primeiro resultado positivo, terá mostrado apenas a correção dessa fórmula. Em outras palavras, mesmo que a hipótese nula seja verdadeira, você a rejeitará. O teste a / b é, portanto, a melhor maneira de encontrar efeitos onde não há nenhum.

t+1tp<α

α

P(A)α.

αadj=α/t,
P(A)αP(A)<α0.05

(0,0.1)α=0.05

insira a descrição da imagem aqui

Como podemos ver, o ajuste é muito eficaz e demonstra o quão radical temos que alterar o valor-p para controlar a taxa de erro familiar. Especificamente, agora não encontramos mais nenhum teste significativo, como deveria ser porque a hipótese nula de @ Berhard é verdadeira.

P(A)α


Aqui está o código:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

2
Isso funciona para mim. Vou ter que traduzir isso para falar de negócios para passar agora a minha opinião para os idosos, mas esse é o meu próprio problema. Muito obrigado
sgk 8/11/16

8

Se a hipótese nula for verdadeira, as pessoas geralmente esperam que o valor de p seja muito alto. Isso não é verdade. Se a hipótese nula for verdadeira, então p é uma variável aleatória distribuída uniformemente. O que significa que, de tempos em tempos, será abaixo de 0,05 aleatoriamente. Se você observar várias subamostras diferentes, às vezes o valor de p estará abaixo de 0,05.

Para facilitar a compreensão, aqui está uma pequena simulação em R:

Isso jogará uma moeda 10.000 vezes e sabemos que é uma moeda justa:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

A partir do 5º arremesso, isso executará um teste binomial de justiça após cada arremesso e salvará os valores de p:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

E isso plotará os valores-p um após o outro:

plot(p.values, type="l")
abline(h=0.05)

insira a descrição da imagem aqui

H0H0

(Apenas para ser perfeitamente aberto, tentei mais de uma semente para o gerador de números antes de ficar tão claro quanto este exemplo, mas isso é justo para fins educacionais. Se você Rinstalou e está em execução, pode jogar facilmente com os números .)


Obrigado pela experiência simples. Mas digamos que parei o teste em um desses estágios (quando o valor de p <0,05), o que meus resultados significam? (além do fato de estar errado). É possível compensar reduzindo o limiar do valor-p?
Sgk

+1 Observe os testes correlacionados e o problema de teste múltiplo relacionado. Veja minha resposta estendida com opções de ajuste abaixo, com base no seu exemplo (muito bom).
Tomka #

αα

Meu ponto principal é o de controlar a taxa de erro familiar (FWER) ou a taxa de descoberta falsa (FDR), ambas visando o erro tipo 1. Controlar o erro do tipo 2 é um problema menor nos testes a / b devido a amostras geralmente muito grandes.
Tomka

p=0.05
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.