Por que é errado interromper um teste A / B antes que o tamanho ideal da amostra seja atingido?

Sou responsável por apresentar os resultados dos testes A / B (executados em variações de sites) na minha empresa. Executamos o teste por um mês e, em seguida, verificamos os valores de p em intervalos regulares até atingirmos o significado (ou abandonamos se o significado não for alcançado após a execução do teste por um longo tempo), algo que estou descobrindo agora é uma prática equivocada .

Quero interromper essa prática agora, mas, para fazer isso, quero entender POR QUE isso está errado. I compreender que o tamanho do efeito, o tamanho da amostra (N), o critério de significância alfa (α) e poder estatístico, ou o beta escolhido ou implícita (β) são matematicamente relacionadas. Mas o que exatamente muda quando paramos o teste antes de atingirmos o tamanho de amostra necessário?

Eu li alguns posts aqui (ou seja , isso , isso e isso ), e eles me dizem que minhas estimativas seriam tendenciosas e a taxa do meu erro tipo 1 aumenta drasticamente. Mas como isso acontece? Estou procurando uma explicação matemática , algo que mostre claramente os efeitos do tamanho da amostra nos resultados. Acho que tem algo a ver com as relações entre os fatores que mencionei acima, mas não consegui descobrir as fórmulas exatas e resolvê-las por conta própria.

Por exemplo, interromper o teste prematuramente aumenta a taxa de erro do Tipo 1. Bem. Mas por que? O que acontece para aumentar a taxa de erro do tipo 1? Estou sentindo falta da intuição aqui.

Ajuda por favor.

— sgk
fonte

pode ser útil evanmiller.org/how-not-to-run-an-ab-test.html

— seanv507

Sim, eu passei por esse link, mas simplesmente não entendi o exemplo dado.

— Sgk 8/16

desculpe Gopalakrishnan - não tinha visto que seu primeiro link já apontava para isso.

— precisa saber é

P (\cup_{i \in 1 \dots N} x_{i} > θ) \geq P (x_{N} > θ)

$P(\cup _{i \in 1\dots N} x_i>\theta) \ge P( x_N>\theta)$

@GopalakrishnanShanker explicação matemática dada na minha resposta

— tomka

Respostas:

$\alpha$ $\alpha$

$n-1$

$\alpha$ $t$

P (A) = 1 - (1 - α)^{t},

$P(A) = 1-(1-\alpha)^t,$

A

$A$

1

$1$ como você repetidamente a / b teste. Se você simplesmente parar após o primeiro resultado positivo, terá mostrado apenas a correção dessa fórmula. Em outras palavras, mesmo que a hipótese nula seja verdadeira, você a rejeitará. O teste a / b é, portanto, a melhor maneira de encontrar efeitos onde não há nenhum.

$t+1$ $t$ $p< \alpha$

$\alpha$

P (A) \leq α .

$P(A) \le \alpha.$

α_{a d j} = α / t,

$\alpha_{adj} = \alpha/t,$

P (A) \approx α

$P(A) \approx \alpha$

P (A) < α

$P(A) < \alpha$

0.05

$0.05$

$(0,0.1)$ $\alpha = 0.05$

Como podemos ver, o ajuste é muito eficaz e demonstra o quão radical temos que alterar o valor-p para controlar a taxa de erro familiar. Especificamente, agora não encontramos mais nenhum teste significativo, como deveria ser porque a hipótese nula de @ Berhard é verdadeira.

$P(A) \approx \alpha$

Aqui está o código:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

— tomka
fonte

Isso funciona para mim. Vou ter que traduzir isso para falar de negócios para passar agora a minha opinião para os idosos, mas esse é o meu próprio problema. Muito obrigado

— sgk 8/11/16

Se a hipótese nula for verdadeira, as pessoas geralmente esperam que o valor de p seja muito alto. Isso não é verdade. Se a hipótese nula for verdadeira, então p é uma variável aleatória distribuída uniformemente. O que significa que, de tempos em tempos, será abaixo de 0,05 aleatoriamente. Se você observar várias subamostras diferentes, às vezes o valor de p estará abaixo de 0,05.

Para facilitar a compreensão, aqui está uma pequena simulação em R:

Isso jogará uma moeda 10.000 vezes e sabemos que é uma moeda justa:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

A partir do 5º arremesso, isso executará um teste binomial de justiça após cada arremesso e salvará os valores de p:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

E isso plotará os valores-p um após o outro:

plot(p.values, type="l")
abline(h=0.05)

$H_0$ $H_0$

(Apenas para ser perfeitamente aberto, tentei mais de uma semente para o gerador de números antes de ficar tão claro quanto este exemplo, mas isso é justo para fins educacionais. Se você Rinstalou e está em execução, pode jogar facilmente com os números .)

— Bernhard
fonte

Obrigado pela experiência simples. Mas digamos que parei o teste em um desses estágios (quando o valor de p <0,05), o que meus resultados significam? (além do fato de estar errado). É possível compensar reduzindo o limiar do valor-p?

— Sgk

+1 Observe os testes correlacionados e o problema de teste múltiplo relacionado. Veja minha resposta estendida com opções de ajuste abaixo, com base no seu exemplo (muito bom).

— Tomka #

α

$\alpha$

α

$\alpha$

Meu ponto principal é o de controlar a taxa de erro familiar (FWER) ou a taxa de descoberta falsa (FDR), ambas visando o erro tipo 1. Controlar o erro do tipo 2 é um problema menor nos testes a / b devido a amostras geralmente muito grandes.

— Tomka

p = 0.05

$p=0.05$