De fato, agora os valores-p também estão "fora de moda": http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . O teste de significância de hipótese nula (NHST) produz pouco mais do que uma descrição do tamanho da sua amostra. (*) Qualquer intervenção experimental terá algum efeito, ou seja, que a hipótese nula simples de 'sem efeito' é sempre falsa em sentido estrito. . Portanto, um teste "não significativo" significa simplesmente que o tamanho da sua amostra não era grande o suficiente; um teste "significativo" significa que você coletou dados suficientes para "encontrar" algo.
O 'tamanho do efeito' representa uma tentativa de remediar isso, introduzindo uma medida na escala natural do problema. Na medicina, onde os tratamentos sempre têm algum efeito (mesmo que seja um efeito placebo), a noção de um 'efeito clinicamente significativo' é introduzida para proteger contra a probabilidade anterior de 50% de um 'tratamento' ter 'a ( estatisticamente) efeito positivo significativo '(ainda que minúsculo) em um estudo arbitrariamente grande.
Se eu entendo a natureza do seu trabalho, clarinetista, no final do dia, seu objetivo legítimo é informar ações / intervenções que melhorem a educação nas escolas sob seu alcance. Assim, seu cenário é teórico da decisão , e os métodos bayesianos são a abordagem mais apropriada (e exclusivamente coerente [1] ).
De fato, a melhor maneira de entender os métodos freqüentistas é como aproximações aos métodos bayesianos . O tamanho estimado do efeito pode ser entendido como uma medida de centralidade para a distribuição posterior bayesiana , enquanto o valor p pode ser entendido como uma medida da cauda posterior. Assim, juntas , essas duas grandezas contêm uma essência grosseira do posterior bayesiano que constitui a contribuição natural para uma perspectiva teórica da decisão sobre o seu problema. (Como alternativa, um intervalo de confiança freqüentista no tamanho do efeito pode ser entendido da mesma forma como um intervalo de credibilidade pretendido .)
Nos campos da psicologia e da educação, os métodos bayesianos são realmente bastante populares. Uma razão para isso é que é fácil instalar 'construções' nos modelos bayesianos, como variáveis latentes. Você pode conferir o 'livro dos filhotes' de John K. Kruschke , um psicólogo. Na educação (onde você tem alunos aninhados em salas de aula, aninhados em escolas, aninhados em distritos, ...), a modelagem hierárquica é inevitável. E os modelos bayesianos também são ótimos para modelagem hierárquica. Nesta conta, você pode conferir Gelman & Hill [2].
[1]: Robert, Christian P. A escolha bayesiana: dos fundamentos teóricos à decisão à implementação computacional. 2nd ed. Springer Textos em Estatística. Nova York: Springer, 2007.
[2]: Gelman, Andrew e Jennifer Hill. Análise de dados usando regressão e modelos multiníveis / hierárquicos. Métodos Analíticos para Pesquisa Social. Cambridge; Nova York: Cambridge University Press, 2007.
Para mais informações sobre "coerência" de uma perspectiva de não bater necessariamente na cabeça com um tijolo bayesiano , consulte [3].
[3]: Robins, James e Larry Wasserman. "Condicionamento, probabilidade e coerência: uma revisão de alguns conceitos fundamentais." Jornal da Associação Estatística Americana 95, no. 452 (1 de dezembro de 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) Em [4], Meehl flagela o NHST de maneira muito mais elegante, mas não menos abrasiva, do que eu:
Como a hipótese nula é quase sempre falsa, as tabelas que resumem a pesquisa em termos de padrões de "diferenças significativas" são pouco mais que resultados complexos e causalmente não interpretáveis das funções de poder estatístico.
[4]: Meehl, Paul E. "Riscos teóricos e asteriscos tabulares: Sir Karl, Sir Ronald e o lento progresso da psicologia branda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
E aqui está uma citação relacionada de Tukey: /stats//a/728/41404