A abordagem teórica da decisão de Neyman-Pearson para o teste de hipóteses (rejeitar / aceitar) está intimamente alinhada com a falsificação de Popper . Este método não é inválido, apenas não atendeu à crescente ganância humana pelo consumo de conhecimento, produtos e ganho profissional.
A validade da abordagem de Popper à ciência baseia-se fortemente em 1. Hipóteses pré-especificadas 2. Apenas realizando pesquisas com poder adequado e 3. Consumindo os resultados de estudos positivos / negativos com igual zelo. Nós (no meio acadêmico, empresarial, governamental, mídia etc.) ao longo do século passado não fizemos nada disso.
Fisher propôs uma maneira de fazer "estatísticas sem testes de hipóteses". Ele nunca sugeriu que seu valor p fosse comparado a um ponto de corte de 0,05. Ele disse para relatar o valor-p e relatar o poder do estudo.
Outra alternativa sugerida por muitos é apenas relatar os intervalos de confiança (ICs). O pensamento é que forçar alguém a avaliar os resultados de um estudo com base em uma quantidade física, em vez de uma quantidade sem unidade (como um valor-p), os encorajaria a considerar aspectos mais sutis, como tamanho do efeito, interpretabilidade e generalização. No entanto, mesmo isso não deu certo: a tendência crescente é inspecionar se o IC ultrapassa 0 (ou 1 para escalas de razão) e declarar o resultado estatisticamente significativo, se não. Tim Lash chama esse teste de hipótese de backdoor.
Existem argumentos sinuosos e intermináveis sobre uma nova era de testes de hipóteses. Ninguém não abordou a ganância de que falei anteriormente. Tenho a impressão de que não precisamos mudar a maneira como fazemos estatísticas, precisamos mudar a maneira como fazemos ciência .