A utilidade dos tamanhos de efeito em relação aos valores-p (assim como outras métricas de inferência estatística) é rotineiramente debatida em meu campo - psicologia - e o debate é atualmente "mais quente" do que o normal por razões relevantes à sua pergunta. E embora eu esteja certo de que a psicologia não é necessariamente o campo científico mais estatisticamente sofisticado, ela prontamente discutiu, estudou - e às vezes demonstrou - limitações de várias abordagens à inferência estatística, ou pelo menos como elas são limitadas pelo uso humano. As respostas já postadas incluem boas informações, mas caso você esteja interessado em uma lista mais extensa (e referências) de razões a favor e contra cada uma, veja abaixo.
Por que os valores p são indesejáveis?
- Como observa Darren James (e sua simulação mostra), os valores de p dependem amplamente do número de observações que você tem (ver Kirk, 2003).
- Como Jon observa, os valores-p representam a probabilidade condicional de observar os dados como extremos ou extremos, dado que a hipótese nula é verdadeira. Como a maioria dos pesquisadores prefere ter probabilidades da hipótese de pesquisa e / ou da hipótese nula, os valores de p não falam com probabilidades nas quais os pesquisadores estão mais interessados (ou seja, da hipótese nula ou de pesquisa, ver Dienes, 2008).
- Muitos que usam valores-p não entendem o que significam / não significam (Schmidt & Hunter, 1997). A referência de Michael Lew ao artigo de Gelman e Stern (2006) ressalta ainda mais os mal-entendidos dos pesquisadores sobre o que se pode (ou não) interpretar a partir dos valores-p. E, comodemonstrauma história relativamente recente no FiveThirtyEight , esse continua sendo o caso.
- Os valores de p não são bons em prever valores de p subsequentes (Cumming, 2008)
- Os valores de p são frequentemente relatados erroneamente (com mais frequência inflacionando significância), e o relato incorreto está vinculado à falta de vontade de compartilhar dados (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011).
- Os valores de p podem ser (e historicamente têm sido) distorcidos ativamente através da flexibilidade analítica e, portanto, não são confiáveis (John et al., 2012; Simmons et al., 2011)
- Os valores de p são desproporcionalmente significativos, pois os sistemas acadêmicos parecem recompensar os cientistas pela significância estatística sobre a precisão científica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Por que os tamanhos de efeito são desejáveis?
Observe que estou interpretando sua pergunta como se referindo especificamente a tamanhos de efeito padronizados, pois você diz que eles permitem que os pesquisadores transformem suas descobertas “EM UMA Métrica COMUM”.
- Como Jon e Darren James indicam, os tamanhos dos efeitos indicam a magnitude de um efeito, independentemente do número de observações (American Psychological Association 2010; Cumming, 2014), em vez de tomar decisões dicotômicas sobre a existência ou não de um efeito.
- Os tamanhos dos efeitos são valiosos porque possibilitam as meta-análises, e as meta-análises conduzem ao conhecimento cumulativo (Borenstein et al., 2009; Chan & Arvey, 2012)
- O tamanho dos efeitos ajuda a facilitar o planejamento do tamanho da amostra por meio de uma análise de potência a priori e, portanto, a alocação eficiente de recursos na pesquisa (Cohen, 1992)
Por que os valores p são desejáveis?
Embora sejam menos frequentemente adotados, os valores-p têm várias vantagens. Alguns são bem conhecidos e antigos, enquanto outros são relativamente novos.
Os valores de p fornecem um índice conveniente e familiar da força da evidência em relação à hipótese nula do modelo estatístico.
Quando calculados corretamente, os valores p fornecem um meio de tomar decisões dicotômicas (que às vezes são necessárias), e os valores p ajudam a manter taxas de erro falso-positivas de longo prazo em um nível aceitável (Dienes, 2008; Sakaluk, 2016). Não é estritamente correto dizer que os valores P são necessários para decisões dicotômicas. Eles são de fato amplamente usados dessa maneira, mas Neyman & Pearson usaram 'regiões críticas' no espaço estatístico do teste para esse fim. Veja esta pergunta e suas respostas]
- Os valores p podem ser usados para facilitar o planejamento do tamanho da amostra continuamente eficiente (não apenas uma análise de potência única) (Lakens, 2014)
- Os valores p podem ser usados para facilitar a meta-análise e avaliar o valor evidencial (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Veja este post do blog para uma discussão acessível sobre como as distribuições de valores-p podem ser usadas dessa maneira, bem como esta postagem do CV para uma discussão relacionada.
- Os valores p podem ser usados forense para determinar se práticas de pesquisa questionáveis podem ter sido usadas e como resultados replicáveis podem ser (Schimmack, 2014; ver também o aplicativo de Schönbrodt, 2015)
Por que os tamanhos de efeito são indesejáveis (ou superestimados)?
Talvez a posição mais contra-intuitiva para muitos; por que relatar tamanhos de efeito padronizados seria indesejável ou, no mínimo, superestimado?
- Em alguns casos, os tamanhos de efeito padronizados não são exatamente o que deveriam ser (por exemplo, Groenlândia, Schlesselman e Criqui, 1986). Baguely (2009), em particular, tem uma boa descrição de algumas das razões pelas quais os tamanhos de efeito bruto / não padronizado podem ser mais desejáveis.
- Apesar de sua utilidade para a análise de potência a priori, os tamanhos dos efeitos não são realmente usados de maneira confiável para facilitar o planejamento eficiente do tamanho da amostra (Maxwell, 2004)
- Mesmo quando os tamanhos de efeito são usados no planejamento do tamanho da amostra, porque são inflados via viés de publicação (Rosenthal, 1979) , os tamanhos de efeito publicados são de utilidade questionável para o planejamento confiável do tamanho da amostra (Simonsohn, 2013)
- As estimativas de tamanho de efeito podem ser - e foram - sistematicamente calculadas erroneamente em software estatístico (Levine & Hullet, 2002)
- Os tamanhos dos efeitos são extraídos por engano (e provavelmente relatados incorretamente), o que prejudica a credibilidade das metanálises (Gøtzsche et al., 2007)
- Por fim, a correção do viés de publicação nos tamanhos dos efeitos permanece ineficaz (consulte Carter et al., 2017), que, se você acredita que o viés de publicação existe, torna as metanálises menos impactantes.
Sumário
Fazendo eco ao argumento de Michael Lew, os valores de p e os tamanhos dos efeitos são apenas duas evidências estatísticas; existem outros que valem a pena considerar também. Porém, como valores-p e tamanhos de efeito, outras métricas de valor probatório também têm problemas compartilhados e únicos. Os pesquisadores geralmente aplicam mal e interpretam mal os intervalos de confiança (por exemplo, Hoekstra et al., 2014; Morey et al., 2016), por exemplo, e o resultado das análises bayesianas pode distorcer os pesquisadores, assim como ao usar valores-p (por exemplo, Simonsohn , 2014).
Todas as métricas de evidência venceram e todas devem ter prêmios.
Referências
Associação Americana de Psicologia. (2010). Manual de publicação da American Psychological Association (6ª edição). Washington, DC: Associação Americana de Psicologia.
Baguley, T. (2009). Tamanho de efeito padronizado ou simples: o que deve ser relatado? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). A (má) comunicação de resultados estatísticos em periódicos de psicologia. Métodos de pesquisa de comportamento, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introdução à meta-análise. West Sussex, Reino Unido: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 de agosto). Corrigindo o viés em psicologia: Uma comparação de métodos meta-analíticos. Obtido em osf.io/preprints/psyarxiv/9h3nu
Chan, ME e Arvey, RD (2012). Meta-análise e desenvolvimento do conhecimento. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Uma cartilha de poder. Boletim Psicológico, 112 (1), 155-159.
Cumming, G. (2008). Replicação ep intervalos: os valores p preveem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores. Perspectives on Psychological Science, 3, 286–300.
Dienes, D. (2008). Compreendendo a psicologia como ciência: uma introdução à inferência científica e estatística. Nova York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Resultados "positivos" aumentam a hierarquia das ciências. PloS um, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). A diferença entre "significativo" e "não significativo" não é, por si só, estatisticamente significante. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. e Tendal, B. (2007). Erros de extração de dados em metanálises que usam diferenças médias padronizadas. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). A falácia de empregar coeficientes de regressão padronizados e correlações como medidas de efeito. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Interpretação robusta dos intervalos de confiança. Boletim psiconômico e revisão, 21 (5), 1157-1164.
John, LK, Loewenstein, G. e Prelec, D. (2012). Medir a prevalência de práticas de pesquisa questionáveis com incentivos para dizer a verdade. Ciência psicológica, 23 (5), 524-532.
Kirk, RE (2003). A importância da magnitude do efeito. Em SF Davis (Ed.), Manual de métodos de pesquisa em psicologia experimental (pp. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Realizando estudos de alta potência com eficiência com análises sequenciais. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR & Hullett, CR (2002). Eta ao quadrado, eta ao quadrado parcial e declaração incorreta do tamanho do efeito na pesquisa em comunicação. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). A persistência de estudos de baixo poder na pesquisa psicológica: causas, consequências e remédios. Métodos psicológicos, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). A falácia de confiar em intervalos de confiança. Boletim psiconômico e revisão, 23 (1), 103-123.
Nosek, BA, Spies, JR e Motyl, M. (2012). Utopia científica: II. Reestruturar incentivos e práticas para promover a verdade sobre a publicabilidade. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). A prevalência de erros de relatórios estatísticos em psicologia (1985-2013). Métodos de pesquisa de comportamento, 48 (4), 1205-1226.
Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim Psicológico, 86 (3), 638-641.
Sakaluk, JK (2016). Explorando pequeno, confirmando grande: um sistema alternativo às novas estatísticas para o avanço da pesquisa psicológica cumulativa e replicável. Jornal de Psicologia Social Experimental, 66, 47-54.
Schimmack, U. (2014). Quantificando a integridade da pesquisa estatística: o índice de replicabilidade. Obtido em http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Oito objeções comuns, mas falsas, à interrupção dos testes de significância na análise dos dados da pesquisa. Em LL Harlow, SA Mulaik e JH Steiger (Eds.), E se não houvesse testes de significância? (pp. 37-64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: analisador de valor p para todos. Recuperado em http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Ciência psicológica, 22 (11), 1359-1366.
Simonsohn, U. (2013). A loucura de alimentar réplicas com base no tamanho do efeito observado. Retirado de http://datacolada.org/4
Simonsohn, U. (2014). Hacking posterior. Recuperado em http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P: Uma chave para a gaveta de arquivos. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P e tamanho do efeito: corrigindo o viés de publicação usando apenas resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). A disposição de compartilhar dados de pesquisa está relacionada à força da evidência e à qualidade do relato dos resultados estatísticos. PloS um, 6 (11), e26828.