Esta é uma questão de discussão sobre a interseção de estatística e outras ciências. Costumo enfrentar o mesmo problema: pesquisadores da minha área tendem a dizer que não há efeito quando o valor-p não é menor que o nível de significância. No começo, respondi muitas vezes que não é assim que o teste de hipóteses funciona. Dada a frequência com que essa pergunta surge, eu gostaria de discutir esse assunto com estatísticos mais experientes.
Vamos considerar um artigo recente em uma revista científica do “melhor grupo editorial” Nature Communications Biology (existem vários exemplos, mas vamos nos concentrar em um)
Os pesquisadores interpretam um resultado não estatisticamente significativo da seguinte maneira:
Assim, a restrição calórica moderada crônica pode prolongar a vida útil e melhorar a saúde de um primata, mas afeta a integridade da substância cinzenta do cérebro sem afetar o desempenho cognitivo .
Prova:
No entanto, o desempenho na tarefa do labirinto de Barnes não foi diferente entre animais controle e restritos a calorias (LME: F = 0,05, p = 0,82; Fig. 2a). Da mesma forma, a tarefa de alternância espontânea não revelou diferença entre animais controle e restritos a calorias (LME: F = 1,63, p = 0,22; Fig. 2b).
Os autores também sugerem a explicação da ausência do efeito - mas o ponto principal não é a explicação, mas a afirmação em si. Os gráficos fornecidos parecem significativamente diferentes "a olho nu" para mim (Figura 2).
Além disso, os autores ignoram o conhecimento prévio:
efeitos deletérios da restrição calórica no desempenho cognitivo foram relatados em ratos e nas funções cerebrais e emocionais em humanos
Eu posso entender a mesma afirmação para os enormes tamanhos de amostra (nenhum efeito = nenhum efeito praticamente significativo lá), mas em situações específicas foram utilizados testes complexos e não é óbvio para mim como realizar cálculos de potência.
Questões:
Eu negligenciei alguns detalhes que validassem suas conclusões?
Considerando a necessidade de relatar resultados negativos na ciência, como provar que não é "a ausência de resultado" (que temos com ), mas "resultado negativo (por exemplo, não há diferença entre grupos)" usando estatísticas? Entendo que, para tamanhos de amostra enormes, até pequenos desvios da rejeição de causa nula, mas vamos assumir que temos dados ideais e ainda precisamos provar que a nula é praticamente verdadeira.
Os estatísticos deveriam sempre insistir em conclusões matematicamente corretas, como "tendo esse poder, não fomos capazes de detectar efeitos de tamanho significativo"? Pesquisadores de outros campos não gostam muito dessas formulações de resultados negativos.
Eu ficaria feliz em ouvir qualquer opinião sobre o problema e li e entendi perguntas relacionadas neste site. Há uma resposta clara às questões 2) -3) do ponto de vista estatístico, mas eu gostaria de entender como essas perguntas devem ser respondidas em caso de diálogo interdisciplinar.
UPD: Eu acho que um bom exemplo de resultado negativo é a 1ª etapa dos ensaios médicos, a segurança. Quando os cientistas podem decidir que o medicamento é seguro? Eu acho que eles comparam dois grupos e fazem estatísticas sobre esses dados. Existe uma maneira de dizer que este medicamento é seguro? Cochrane usa acuradamente "nenhum efeito colateral foi encontrado", mas os médicos dizem que este medicamento é seguro. Quando o equilíbrio entre precisão e simplicidade da descrição se encontra e podemos dizer "não há conseqüências para a saúde"?