Em resposta a um crescente corpo de estatísticos e pesquisadores que criticam a utilidade do teste de hipótese nula (NHT) para a ciência como um esforço cumulativo, a Força-Tarefa da Associação Americana de Psicologia em Inferência Estatística evitou uma proibição total do NHT, mas sugeriu que os pesquisadores relatam tamanhos de efeito, além de p-valores derivados do NHT.
No entanto, os tamanhos dos efeitos não são facilmente acumulados nos estudos. As abordagens meta-analíticas podem acumular distribuições de tamanhos de efeito, mas os tamanhos de efeito são tipicamente calculados como uma razão entre a magnitude do efeito bruto e o "ruído" inexplicável nos dados de um determinado experimento, o que significa que a distribuição dos tamanhos de efeito é afetada não apenas pelo variabilidade na magnitude bruta do efeito entre os estudos, mas também variabilidade na manifestação de ruído entre os estudos.
Por outro lado, uma medida alternativa da força do efeito, a razão de verossimilhança, permite interpretação intuitiva estudo a estudo e pode ser facilmente agregada entre os estudos para a meta-análise. Dentro de cada estudo, a probabilidade representa o peso da evidência de um modelo que contém um determinado efeito em relação a um modelo que não contém o efeito e normalmente pode ser relatado como, por exemplo, "Cálculo de uma razão de verossimilhança para o efeito de X revelou 8 vezes mais evidências para o efeito do que para seu respectivo nulo ". Além disso, a razão de verossimilhança também permite a representação intuitiva da força dos achados nulos, na medida em que as razões de verossimilhança abaixo de 1 representam cenários em que o nulo é favorecido e tomar o valor recíproco desse valor representa o peso da evidência do nulo sobre o efeito. Notavelmente, a razão de verossimilhança é representada matematicamente como a razão de variações inexplicáveis dos dois modelos, que diferem apenas na variação explicada pelo efeito e, portanto, não é uma grande saída conceitual de um tamanho de efeito. Por outro lado, o cálculo de uma razão de verossimilhança meta-analítica, representando o peso da evidência de um efeito nos estudos, é simplesmente uma questão de considerar o produto das razões de verossimilhança nos estudos.
Assim, argumento que, para a ciência que procura estabelecer o grau de evidência grosseira em favor de um efeito / modelo, as proporções de probabilidade são o caminho a percorrer.
Existem casos mais diferenciados em que os modelos são diferenciáveis apenas no tamanho específico de um efeito; nesse caso, pode ser preferido algum tipo de representação do intervalo durante o qual acreditamos que os dados são consistentes com os valores dos parâmetros do efeito. De fato, a força-tarefa da APA também recomenda relatar intervalos de confiança, que podem ser usados para esse fim, mas suspeito que essa também seja uma abordagem pouco considerada.
Intervalos de confiança são lamentavelmente frequentemente mal interpretados ( por estudantes e pesquisadores ). Receio também que sua capacidade de uso no NHT (pela avaliação da inclusão de zero no IC) sirva apenas para atrasar ainda mais a extinção do NHT como prática inferencial.
Em vez disso, quando as teorias são diferenciáveis apenas pelo tamanho dos efeitos, sugiro que a abordagem bayesiana seja mais apropriada, onde a distribuição anterior de cada efeito é definida por cada modelo separadamente e as distribuições posteriores resultantes são comparadas.
Essa abordagem, substituindo valores-p, tamanhos de efeito e intervalos de confiança por razões de verossimilhança e, se necessário, comparação do modelo bayesiano, parece suficiente? Perde algum recurso inferencial necessário que as alternativas aqui difamadas fornecem?