Por que executar testes divididos até estatisticamente significativo é uma “coisa ruim”? (Ou é?)

Eu li este artigo sobre "como não executar um teste A / B".

E ainda não entendo qual é exatamente o raciocínio do autor. Alguém pode enganar isso para mim?

Acho que o que pode estar dizendo é que a leitura dos resultados dos meus testes divididos ao longo do tempo me engana. Eu quero ser capaz de entender isso bem o suficiente para poder explicar para outras pessoas.

Qualquer ajuda?

statistical-significance experiment-design

— Justin Bozonier
fonte

É o fenômeno dos "dois melhores de três". Você conhece a piada:

"Vamos virar isso."

"OK vá!"

"Opa, eu perdi. Que tal jogar mais duas vezes, com o vencedor sendo o melhor dos três tempos totais?"

O teste de significância é exatamente como o lançamento de moedas (mas com moedas tendenciosas, geralmente). Se você executar um teste curto e ele não for significativo, talvez você possa alcançar um significado (em parte por sorte) prolongando o teste.

O inverso disso (estou tentado a dizer o "outro lado" disso :-)) é que, se você planeja realizar um certo número de testes e passa a ver um resultado "significativo" cedo, isso também não é bom. É análogo ao contrário do nosso primeiro concurso:

"Vamos virar o jogo. Melhores dois dos três?"

"OK vá!"

"Ha, eu ganhei o primeiro flip, então eu ganhei!"

Dito isto, observe que existem versões de teste que permitem monitorar o significado (nominal) à medida que avança. Eles funcionam como encerrar um concurso mais cedo, quando ele fica muito unilateral, as chamadas regras de misericórdia . Se, no início, se tornar extremamente óbvio que uma diferença é real, você poderá economizar tempo e esforço finalizando o teste. Estes são chamados procedimentos de teste de hipótese seqüencial . Pode-se argumentar que essa deve ser sua maneira padrão de conduzir testes AB, porque, a longo prazo, você gastará menos tempo e esforço em geral.

— whuber
fonte