Este artigo " As probabilidades, atualizadas continuamente" do NY Times chamou minha atenção. Para ser breve, afirma que
[Estatísticas Bayesianas] está se mostrando especialmente útil na abordagem de problemas complexos, incluindo pesquisas como a que a Guarda Costeira usou em 2013 para encontrar o pescador desaparecido, John Aldridge (embora ainda não esteja na caça ao voo 370 da Malaysia Airlines). ......, as estatísticas bayesianas estão se espalhando por tudo, da física à pesquisa do câncer, da ecologia à psicologia ...
No artigo, há também algumas críticas sobre o valor p do frequentista, por exemplo:
Os resultados são geralmente considerados "estatisticamente significativos" se o valor de p for menor que 5%. Mas existe um perigo nessa tradição, disse Andrew Gelman, professor de estatística da Columbia. Mesmo que os cientistas sempre fizessem os cálculos corretamente - e eles não fazem, ele argumenta - aceitar tudo com um valor p de 5% significa que um em cada 20 resultados "estatisticamente significativos" não passa de ruído aleatório.
Além disso, talvez o artigo mais famoso que critica o valor-p seja este - "Método científico: erros estatísticos", de Regina Nuzzo, da Nature , no qual muitas questões científicas levantadas pela abordagem do valor-p foram discutidas, como questões de reprodutibilidade, hackers com valor p etc.
Os valores de P, o "padrão ouro" da validade estatística, não são tão confiáveis quanto muitos cientistas supõem. ...... Talvez a pior falácia seja o tipo de auto-engano pelo qual o psicólogo Uri Simonsohn, da Universidade da Pensilvânia e seus colegas, popularizaram o termo hackers P; também é conhecido como dragagem de dados, bisbilhotagem, pesca, busca de significados e imersão dupla. “P-hacking”, diz Simonsohn, “está tentando várias coisas até que você obtenha o resultado desejado” - mesmo inconscientemente. ...... “Essa descoberta parece ter sido obtida através do p-hacking, os autores abandonaram uma das condições para que o valor p geral fosse menor que 0,05” e “Ela é uma hacker p, ela sempre monitora os dados enquanto estão sendo coletados. ”
Outra coisa é um enredo interessante como seguir a partir daqui , com o comentário sobre o enredo:
Não importa quão pequeno seja o seu efeito, você sempre pode fazer o trabalho duro de coletar dados para passar o limite de p <0,05. Desde que o efeito que você esteja estudando não exista, os valores-p medem apenas o esforço que você investiu na coleta de dados.
Com tudo acima, minhas perguntas são:
O que o argumento de Andrew Gelman, na segunda citação, significa exatamente? Por que ele interpretou o valor p de 5% como "um em cada 20 resultados estatisticamente significativos são apenas ruído aleatório"? Não estou convencido, pois para mim o valor-p é usado para inferir um único estudo. Seu argumento parece relacionado a vários testes.
Atualização: Confira o blog de Andrew Gelman sobre isso: Não, eu não disse isso! (Créditos para @ Scortchi, @ whuber).
Dadas as críticas sobre o valor p, e também há muitos critérios de informação, como AIC, BIC, de Mallow para avaliar a significância de um modelo (daí as variáveis), não devemos usar o valor p para a seleção de variáveis mas usa esses critérios de seleção de modelo?
- Existem boas orientações práticas sobre o uso do valor-p para análises estatísticas que podem levar a resultados de pesquisa mais confiáveis?
A estrutura de modelagem bayesiana seria uma maneira melhor de seguir, como alguns estatísticos defendem? Especificamente, seria mais provável que a abordagem bayesiana resolvesse falsas descobertas ou manipulasse os problemas de dados? Também não estou convencido aqui, pois o prior é muito subjetivo na abordagem bayesiana. Existem estudos práticos e bem conhecidos que mostram que a abordagem bayesiana é melhor que o valor p de frequentista, ou pelo menos em alguns casos particulares?
Atualização: Eu estaria particularmente interessado em saber se há casos em que a abordagem bayesiana é mais confiável do que a abordagem de valor-p de frequentista. Por "confiável", quero dizer que a abordagem bayesiana tem menos probabilidade de manipular dados para obter os resultados desejados. Alguma sugestão?
Atualização 6/9/2015
Acabei de perceber as notícias e achei que seria bom colocá-las aqui para discussão.
Revista de psicologia proíbe valores de P
Um controverso teste estatístico finalmente chegou ao fim, pelo menos em um periódico. No início deste mês, os editores da Psicologia Social Básica e Aplicada (BASP) anunciaram que a revista não publicaria mais artigos contendo valores de P, porque as estatísticas eram frequentemente usadas para apoiar pesquisas de qualidade inferior.
Juntamente com um artigo recente, "O inconstante valor de P gera resultados irreproduzíveis" da Nature , sobre o valor de P.
Atualização 8/8/2016
Em março, a Associação Estatística Americana (ASA) divulgou declarações sobre significância estatística e valores de p, ".... A declaração da ASA pretende direcionar a pesquisa para uma 'era pós-p <0,05'".
Esta declaração contém 6 princípios que abordam o uso indevido do valor-p:
- Os valores P podem indicar o quão incompatíveis os dados são com um modelo estatístico especificado.
- Os valores de p não medem a probabilidade de que a hipótese estudada seja verdadeira ou a probabilidade de os dados terem sido produzidos apenas por acaso.
- As conclusões científicas e decisões de negócios ou políticas não devem se basear apenas no valor de p passar um limite específico.
- Inferência adequada requer relatórios completos e transparência.
- Um valor-p, ou significância estatística, não mede o tamanho de um efeito ou a importância de um resultado.
- Por si só, um valor-p não fornece uma boa medida de evidência a respeito de um modelo ou hipótese.
Detalhes: "A declaração da ASA sobre valores-p: contexto, processo e finalidade" .