Referências que contêm argumentos contra o teste de significância de hipótese nula?

Nos últimos anos, li vários artigos argumentando contra o uso de testes de significância de hipóteses nulas na ciência, mas não pensei em manter uma lista persistente. Um colega recentemente me pediu essa lista, então pensei em pedir a todos aqui para ajudar a construí-la. Para começar, aqui está o que tenho até agora:

Johansson (2011) "Salve o impossível: valores-p, evidência e probabilidade".
Haller & Kraus (2002) "Interpretação incorreta do significado: um problema que os alunos compartilham com seus professores".
Wagenmakers (2007) "Uma solução prática para o problema generalizado dos valores-p".
Rodgers (2010) "A epistemologia da modelagem matemática e estatística: uma silenciosa revolução metodológica".
Dixon (1998) "Por que os cientistas valorizam os valores-p".
Glover e Dixon (2004) "Razões de verossimilhança: uma estatística simples e flexível para psicólogos empíricos".

— Mike Lawrence
fonte

Não é 100% relevante, por isso não estou postando isso como resposta. Mas, JPA Ioannidis, Por que a maioria das descobertas publicadas são falsas , vale a pena ler a PLoS Med 2 (8): e124, 2005.

— cardeal

Um livro famoso entre economistas é Ziliak, Stephen T. e Deirdre Nansen Mccloskey. O culto da significância estatística: como o erro padrão nos custa empregos, justiça e vidas. University of Michigan Press, 2008.

— Waldemar

Qual é o objetivo aqui?

— Aksakal

Em março de 2016, a ASA emitiu uma "Declaração sobre p-Valores" oficial .

— Kenny LJ

Muitas referências estão listadas nesta página (incluindo comentários): lesswrong.com/lw/g13/against_nhst . Mais referências na resposta de Glen_b aqui: stats.stackexchange.com/questions/142533 .

— Ameba diz Reinstate Monica

Chris Fraley ministrou um curso completo sobre a história do debate (o link parece estar quebrado, mesmo que ainda esteja em seu site oficial; veja uma cópia no Internet Archive ). Seu resumo / conclusão está aqui (novamente, cópia arquivada ). De acordo com a página inicial de Fraley, a última vez que ministrou este curso foi em 2003.

Ele antecede esta lista com um "viés do instrutor":

Embora meu objetivo seja facilitar discussões vivas, profundas e justas sobre os assuntos em questão, acredito que é necessário tornar explícito meu preconceito desde o início. Paul Meehl afirmou certa vez que "Sir Ronald [Fisher] nos confundiu, nos hipnotizou e nos conduziu pelo caminho da prímula. Acredito que a confiança quase universal em apenas refutar a hipótese nula como o método padrão para corroborar teorias substanciais no ambiente mole. é um erro terrível, é basicamente doentio, fraca estratégia científica e uma das piores coisas que já aconteceram na história da psicologia ". Eu ecoo o sentimento de Meehl. Um dos meus objetivos neste seminário é esclarecer por que acredito que seja esse o caso. Além disso, espero que, quando você concluir este seminário,

Copiarei a lista de leitura caso a página do curso desapareça:

Semana 1. Introdução: O que é um Teste de Significação de Hipótese Nula? Fatos, mitos e o estado de nossa ciência

Lyken, DL (1991). O que há de errado com a psicologia? Em D. Cicchetti e WM Grove (orgs.), Thinking Clearly about Psychology, vol. 1: Assuntos de interesse público, ensaios em homenagem a Paul E. Meehl (pp. 3-39). Minneapolis, MN: University of Minnesota Press.

Semana 2. Críticas iniciais ao NHST

Meehl, PE (1967). Testes teóricos em psicologia e física: um paradoxo metodológico. Philosophy of Science, 34, 103-115.

Meehl, PE (1978). Riscos teóricos e asteriscos tabulares: Sir Karl, Sir Ronald e o lento progresso da psicologia branda. Jornal de Consultoria e Psicologia Clínica, 46, 806-834.

Rozeboom, WW (1960). A falácia do teste de significância da hipótese nula. Boletim Psicológico, 57, 416-428.

Bakan, D. (1966). O teste de significância na pesquisa psicológica. Boletim Psicológico, 66, 423-437. [opcional]

Semana 3. Críticas Contemporâneas ao NHST

Cohen, J. (1994). A terra é redonda (p <0,05). American Psychologist, 49, 997-1003.

Gigerenzer, G. (1993). O superego, o ego e o id no raciocínio estatístico. Em G. Keren e C. Lewis (Eds.), Um manual para análise de dados nas ciências do comportamento: Questões metodológicas (pp. 311-339). Hillsdale, NJ: Lawrence Erlbaum Associates.

Schmidt, FL & Hunter, JE (1997). Oito objeções comuns, mas falsas, à interrupção dos testes de significância na análise dos dados da pesquisa. Em Lisa A. Harlow, Stanley A. Mulaik e James H. Steiger (Eds.). E se não houvesse testes de significância? (pp. 37-64). Mahwah, NJ: Lawrence Erlbaum Associates.

Oakes, M. (1986). Inferência estatística: um comentário para as ciências sociais e comportamentais. Nova York: Wiley. (Capítulo 2 [Crítica dos testes de significância]) [opcional]

Semana 4. Refutação: advogados do NHST vêm em sua defesa

Frick, RW (1996). O uso apropriado do teste de hipótese nula. Psychological Methods, 1, 379-390.

Hagen, RL (1997). Em louvor ao teste estatístico da hipótese nula. American Psychologist, 52, 15-24.

Wilkinson, L., e a Força-Tarefa sobre Inferência Estatística. (1999). Métodos estatísticos em revistas de psicologia: Diretrizes e explicações. American Psychologist, 54, 594-604.

Wainer, H. (1999). Uma torcida pelo teste de significância de hipótese nula. Psychological Methods, 6, 212-213.

Mulaik, SA, Raju, NS e Harshman, RA (1997). Há tempo e lugar para teste de significância. Em Lisa A. Harlow, Stanley A. Mulaik e James H. Steiger, Eds. E se não houvesse testes de significância? (pp. 65-116). Mahwah, NJ: Lawrence Erlbaum Associates. [opcional]

Semana 5. Refutação: Os advogados do NHST vêm em sua defesa

Abelson, RP (1997). Sobre a surpreendente longevidade dos cavalos açoitados: Por que há um argumento para o teste de significância. Ciência Psicológica, 8, 12-15.

Krueger, J. (2001). Teste de significância de hipótese nula: Na sobrevivência de um método defeituoso. American Psychologist, 56, 16-26.

Scarr, S. (1997). Regras de evidência: Um contexto maior para o debate estatístico. Ciência Psicológica, 8, 16-17.

Greenwald, AG, Gonzalez, R., Harris, RJ, & Guthrie, D. (1996). Tamanhos de efeito ep valores: O que deve ser relatado e o que deve ser replicado? Psychophysiology, 33, 175-183.

Nickerson, RS (2000). Teste de significância de hipótese nula: uma revisão de uma controvérsia antiga e contínua. Psychological Methods, 5, 241-301. [opcional]

Harris, RJ (1997). Os testes de significância têm seu lugar. Ciência Psicológica, 8, 8-11. [opcional]

Semana 6. Tamanho do Efeito

Rosenthal, R. (1984). Procedimentos meta-analíticos para pesquisa social. Beverly Hills, Califórnia: Sage. [CH. 2, Definindo resultados de pesquisa]

Chow, SL (1988). Teste de significância ou tamanho do efeito? Boletim Psicológico, 103, 105-110.

Abelson, RP (1985). Um paradoxo da explicação da variação: quando um pouco é muito. Boletim Psicológico, 97, 129-133. [opcional]

Semana 7. Poder Estatístico

Hallahan, M. & Rosenthal, R. (1996). Poder estatístico: conceitos, procedimentos e aplicações. Behavior Research and Therapy, 34, 489-499.

Sedlmeier, P. & Gigerenzer, G. (1989). Os estudos do poder estatístico afetam o poder dos estudos? Boletim Psicológico, 105, 309-316.

Cohen, J. (1962). O poder estatístico da pesquisa psicológica anormal-social: uma revisão. Jornal de Psicologia Anormal e Social, 65, 145-153. [opcional]

Maddock, JE, Rossi, JS (2001). Poder estatístico de artigos publicados em três revistas relacionadas à psicologia da saúde. Health Psychology, 20, 76-78. [opcional]

Thomas, L. & Juanes, F. (1996). A importância da análise do poder estatístico: Um exemplo do Comportamento Animal. Animal Behavior, 52, 856-859. [opcional]

Rossi, JS (1990). Poder estatístico da pesquisa psicológica: o que ganhamos em 20 anos? Jornal de Consultoria e Psicologia Clínica, 58, 646-656. [opcional]

Tukey, JW (1969). Analisando dados: Santificação ou trabalho de detetive? American Psychologist, 24, 83-91. [opcional]

Semana 8. Intervalos de Confiança e Teste de Significância

Gardner, MJ e DG Altman. 1986. Intervalos de confiança em vez de valores de P: Estimativa em vez de teste de hipóteses. British Medical Journal, 292, 746-750.

Cumming, G., & Finch, S. (2001). Uma cartilha sobre compreensão, uso e cálculo de intervalos de confiança baseados em distribuições centrais e não centrais. Educational and Psychological Measurement, 61, 532-574.

Loftus, GR, & Masson, MEJ (1994). Usando intervalos de confiança em projetos dentro do assunto. Psychonomic Bulletin and Review, 1, 476-490.

Semana 9 [nota: estamos pulando esta seção]. Modelagem Teórica: Desenvolvendo Modelos Formais de Fenômenos Naturais

Haefner, JW (1996). Modelagem de sistemas biológicos: princípios e aplicações. Nova York: International Thomson Publishing. (Capítulos 1 [Modelos de sistemas] e 2 [O processo de modelagem])

Loehlin, JC (1992). Modelos de variáveis latentes: uma introdução à análise fatorial, caminho e estrutural. Hillsdale, NJ: Lawrence Erlbaum Associates. (Capítulo 1 [Modelos de trajetória em fator, trajetória e análise estrutural], p. 1-18]

Grant, DA (1962). Testando a hipótese nula e a estratégia de investigação de modelos teóricos. Psychological Review, 69, 54-61. [opcional]

Binder, A. (1963). Considerações adicionais sobre o teste da hipótese nula e a estratégia e tática de investigação de modelos teóricos. Psychological Review, 70, 107-115. [opcional]

Edwards, W. (1965). Nota tática sobre as relações entre hipóteses científicas e estatísticas. Boletim Psicológico, 63, 400-402. [opcional]

Semana 10. Qual é o significado da probabilidade? Controvérsia sobre frequência relativa e probabilidade subjetiva

Salsburg, D. (2001). A senhora que prova o chá: como as estatísticas revolucionaram a ciência no século XX. Nova York: WH Freeman. (Capítulos 10, 11 e 12)

Oakes, M. (1986). Inferência estatística: um comentário para as ciências sociais e comportamentais. Nova York: Wiley. (Capítulos 4, 5 e 6)

Pruzek, RM (1997). Uma introdução à inferência bayesiana e suas aplicações. Em Lisa A. Harlow, Stanley A. Mulaik e James H. Steiger, Eds. E se não houvesse testes de significância? (pp. 287-318). Mahwah, NJ: Lawrence Erlbaum Associates.

Rindskoph, DM (1997). Testando a hipótese "pequena", não nula: abordagens clássicas e bayesianas. Em Lisa A. Harlow, Stanley A. Mulaik e James H. Steiger (Eds). E se não houvesse testes de significância? (pp. 319-332). Mahwah, NJ: Lawrence Erlbaum Associates.

Edwards, W., Lindman, H., Savage, LJ (1963). Inferência estatística bayesiana para pesquisa psicológica. Psychological Review, 70, 193-242. [opcional]

Semana 11. Avaliação da Teoria: Filosofia da Ciência e Teste e Alteração de Teorias

Meehl, PE (1990). Avaliação e alteração de teorias: A estratégia da defesa lakatosiana e dois princípios que a justificam. Psychological Inquiry, 1, 108-141.

Roberts, S. & Pashler, H. (2000). Quão persuasivo é um bom ajuste? Um comentário sobre o teste teórico. Psychological Review, 107, 358-367.

Semana 12. Avaliação da Teoria: Filosofia da Ciência e Teste e Alteração de Teorias

Urbach, P. (1974). Progresso e degeneração no "debate sobre QI" (I). British Journal of Philosophy of Science, 25, 99-125.

Serlin, RC & Lapsley, DK (1985). Racionalidade na pesquisa psicológica: o princípio do suficientemente bom. American Psychologist, 40, 73-83.

Dar, R. (1987). Outro olhar sobre Meehl, Lakatos e as práticas científicas dos psicólogos. American Psychologist, 42, 145-151.

Gholson, B. & Barker, P. (1985). Kuhn, Lakatos e Laudan: aplicações na história da física e da psicologia. American Psychologist, 40, 755-769. [opcional]

Faust, D. & Meehl, PE (1992). Usando métodos científicos para resolver questões da história e filosofia da ciência: Algumas ilustrações. Terapia Comportamental, 23, 195-211. [opcional]

Urbach, P. (1974). Progresso e degeneração no "debate sobre QI" (II). British Journal of Philosophy of Science, 25, 235-259. [opcional]

Salmon, WC (1973, maio). Confirmação. Scientific American, 228, 75-83. [opcional]

Meehl, PE (1993). Filosofia da ciência: ajuda ou obstáculo? Relatórios Psicológicos, 72, 707-733. [opcional] Manicas. PT, & Secord, PF (1983). Implicações para a psicologia da nova filosofia da ciência. American Psychologist, 38, 399-413. [opcional]

Semana 13. A tradição do NHST prejudicou uma base de conhecimento cumulativa e não tendenciosa em psicologia?

Cooper, H., DeNeve, K. & Charlton, K. (1997). Descobrindo a ciência que faltava: O destino dos estudos submetidos à revisão por um comitê de sujeitos humanos. Psychological Methods, 2, 447-452.

Schmidt, FL (1996). Teste de significância estatística e conhecimento acumulado em psicologia: implicações para a formação de pesquisadores. Psychological Methods, 1, 115-129.

Greenwald, AG (1975). Consequências do preconceito contra a hipótese nula. Boletim Psicológico, 82, 1-20.

Berger, JO & Berry, DA (1988). Análise estatística e ilusão de objetividade. American Scientist, 76, 159-165.

Semana 14. Replicação e integridade científica

Smith, NC (1970). Estudos de replicação: um aspecto negligenciado da pesquisa psicológica. American Psychologist, 25, 970-975.

Sohn, D. (1998). Significado estatístico e replicabilidade: Por que o primeiro não pressagia o segundo. Teoria e Psicologia, 8, 291-311.

Meehl, PE (1990). Por que resumos de pesquisas sobre teorias psicológicas são muitas vezes incompreensíveis. Relatórios Psicológicos, 66, 195-244.

Platt, JR (1964). Inferência Forte. Science, 146, 347-353.

Feynman, RL (1997). Certamente você está brincando, Sr. Feynman! Nova York: WW Norton. (Capítulo: Ciência do culto à carga).

Rorer, LG (1991). Alguns mitos da ciência em psicologia. Em D. Cicchetti e WM Grove (orgs.), Thinking Clearly about Psychology, vol. 1: Assuntos de interesse público, ensaios em homenagem a Paul E. Meehl (pp. 61 - 87). Minneapolis, MN: University of Minnesota Press. [opcional]

Lindsay, RM & Ehrenberg, ASC (1993). O desenho de estudos replicados. The American Statistician, 47, 217-228. [opcional]

Semana 15. Pensamento quantitativo: por que precisamos de matemática (e não o NHST per se) em ciências psicológicas

Aiken, LS, West, SG, Sechrest, L., & Reno, RR (1990). Treinamento de pós-graduação em estatística, metodologia e medição em psicologia: uma pesquisa com Ph.D. programas na América do Norte. American Psychologist, 45, 721-734.

Meehl, PE (1998, maio). O poder do pensamento quantitativo. Endereço convidado como destinatário do James McKeen Cattell Award na reunião anual da American Psychological Society, Washington, DC.

— Michael Bishop
fonte

+1. É interessante - e bastante revelador - que as leituras começam e terminam com Meehl.

— whuber

Você fez um serviço real ao compartilhar isso.

— Rolando2

Os links para o curso e para o resumo parecem estar quebrados. Você pode encontrar as informações no projeto Archive: web.archive.org/web/20151023151618/http://www.uic.edu/classes/…

— AG

Estas são excelentes referências. Talvez eu tenha um folheto útil em http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/whyBayesian.pdf

— Frank Harrell
fonte

402 Citações que questionam o uso indiscriminado de testes de significância de hipótese nula em estudos observacionais: http://warnercnr.colostate.edu/~anderson/thompson1.html

— Alex
fonte