O que chamamos de P-hacking é a aplicação de um teste de significância várias vezes e o relatório apenas dos resultados de significância. Se isso é bom ou ruim, é dependente da situação.
Para explicar, vamos pensar nos efeitos verdadeiros em termos bayesianos, em vez de hipóteses nulas e alternativas. Enquanto acreditamos que nossos efeitos de interesse provêm de uma distribuição contínua, sabemos que a hipótese nula é falsa. No entanto, no caso de um teste bilateral, não sabemos se é positivo ou negativo. Sob essa luz, podemos pensar nos valores de p para testes bilaterais como uma medida de quão forte é a evidência de que nossa estimativa tem a direção correta (ou seja, efeito positivo ou negativo).
p < α
Agora, considere o que acontece quando você volta para obter mais dados. Cada vez que você obtém mais dados, sua probabilidade de obter a direção correta condicional com base em dados suficientes aumenta apenas. Portanto, nesse cenário, devemos perceber que, ao obter mais dados, embora de fato aumentemos a probabilidade de um erro do tipo I, também estamos reduzindo a probabilidade de concluir erroneamente a direção errada.
Veja isso em contraste com o abuso mais típico de hackers P; testamos centenas de tamanhos de efeitos com boa probabilidade de serem muito pequenos e relatamos apenas os significativos. Observe que, neste caso, se todos os efeitos forem pequenos, temos uma chance de quase 50% de errar na direção ao declararmos significado.
Obviamente, os valores de p produzidos a partir dessa duplicação de dados ainda devem vir com um grão de sal. Embora, em geral, você não deva ter problemas com pessoas que coletam mais dados para ter mais certeza sobre o tamanho de um efeito, isso pode ser abusado de outras maneiras. Por exemplo, um PI inteligente pode perceber que, em vez de coletar todos os 100 pontos de dados de uma só vez, eles poderiam economizar muito dinheiro e aumentar o poder coletando 50 pontos de dados, analisando os dados e, em seguida, coletando os próximos 50, se não for significativo . Nesse cenário, eles aumentam a probabilidade de obter a direção do efeito incorreta, dependendo da declaração de significância, uma vez que têm mais probabilidade de errar a direção do efeito com 50 pontos de dados do que com 100 pontos de dados.
E, finalmente, considere as implicações de não obter mais dados quando tivermos um resultado insignificante. Isso implicaria nunca coletar mais informações sobre o tema, o que realmente não impulsionará a ciência, não é? Um estudo com pouca capacidade mataria um campo inteiro.