Compreendendo Gelman & Carlin “Além dos cálculos de potência:…” (2014)

Estou lendo Gelman & Carlin "Além dos cálculos de potência: avaliando erros do tipo S (sinal) e tipo M (magnitude)" (2014). Estou tentando entender a idéia principal, o caminho principal, mas estou confuso. Alguém poderia me ajudar a me destilar a essência?

O artigo é mais ou menos assim (se eu entendi direito).

Os estudos estatísticos em psicologia são frequentemente atormentados por pequenas amostras.
Condicional a um resultado estatisticamente significativo em um determinado estudo,
(1) o tamanho real do efeito provavelmente será severamente superestimado e
(2) o sinal do efeito pode ser oposto com alta probabilidade - a menos que o tamanho da amostra seja grande o suficiente.
O exposto acima é mostrado usando uma estimativa prévia do tamanho do efeito na população, e esse efeito geralmente é pequeno.

Meu primeiro problema é: por que condicionar o resultado estatisticamente significativo? É para refletir o viés de publicação? Mas isso não parece ser o caso. Então porque?

Meu segundo problema é que, se eu mesmo fizer um estudo, devo tratar meus resultados de maneira diferente do que estou acostumado (faço estatísticas freqüentistas, pouco familiarizadas com o bayesiano)? Por exemplo, eu coletaria uma amostra de dados, estimaria um modelo e registraria uma estimativa pontual para algum efeito de interesse e uma confiança vinculada a ele. Agora devo desconfiar do meu resultado? Ou devo desconfiar se for estatisticamente significativo? Como um dado dado prévio muda isso?

Qual é o principal argumento (1) para um "produtor" de pesquisa estatística e (2) para um leitor de artigos estatísticos aplicados?

Referências:

Gelman, Andrew e John Carlin. "Além dos cálculos de potência: avaliando erros do tipo S (sinal) e tipo M (magnitude)." Perspectives on Psychological Science 9.6 (2014): 641-651.

PS: Acho que o novo elemento para mim aqui é a inclusão de informações prévias, que não tenho certeza de como tratar (provenientes do paradigma freqüentista).

— Richard Hardy
fonte

Como você pode ver, estou bastante confuso, então minhas perguntas podem não parecer coerentes ou sensatas. Aprecio todas as dicas para dar mais sentido ao trabalho que estou estudando. Espero poder fazer perguntas mais sensatas à medida que minha compreensão do problema avança.

— Richard Hardy

Observe que eles definiram a premissa do artigo logo no início: " Você acabou de executar um experimento. Você analisa os resultados e encontra um efeito significativo . Sucesso! Mas espere - quanta informação seu estudo realmente fornece a você ? Quanto você deve confiar em seus resultados? "--- eles estão descrevendo o que acontece / o que está implícito quando você tem significado. Eles usam essas consequências para motivar o foco em outras coisas que não sejam significativas.

— Glen_b -Reinstar Monica

Você deve desconfiar do seu resultado - sim - se executar vários testes de significância e filtrar tudo o que for insignificante; isso é uma espécie de "viés de publicação", mas pode acontecer sem nenhuma publicação, simplesmente dentro do laboratório de uma pessoa ao longo de vários meses ou anos de experimentos. Todo mundo faz algo assim até certo ponto, daí o interesse pedagógico em condicionar resultados significativos.

— Ameba diz Reinstate Monica

@amoeba, OK, mas se (hipoteticamente) eu estimar apenas um modelo e focar em apenas um parâmetro pré-especificado (portanto, nenhum teste múltiplo), o resultado de Gelman & Carlin mudaria alguma coisa? Que tal incluir as informações anteriores?

— Richard Hardy

Informações anteriores são necessárias para avaliar a taxa de descoberta falsa; a lógica usual de teste de significância garante apenas a taxa de erro tipo I P (signif | null). Para estimar P (null | signif), é necessário chamar alguns anteriores. É isso que Gelman e Carlin estão fazendo aqui. Se você estimar apenas um modelo, "taxa de descoberta falsa" não faz sentido (na abordagem freqüentista); mas geralmente as pessoas estimam muitos modelos :-) ou pelo menos lêem literatura que consiste em outras pessoas estimando muitos modelos.

— Ameba diz Reinstate Monica

Respostas:

Reli o artigo e, desta vez, parece muito mais claro. Agora também os comentários úteis de @Glen_b e @amoeba fazem muito sentido.

Toda a discussão é baseada no ponto de partida em que um resultado estatisticamente significativo foi obtido. Condicional em que, temos o tamanho estimado efeito distribuídas de forma diferente do que seria ausente o O artigo parece visar dois problemas:

P_{\hat{β}} (\cdot | \hat{β} is statistically significant) \neq P_{\hat{β}} (\cdot) .

$P_{\hat\beta}(\cdot|\hat\beta \text{ is statistically significant})\neq P_{\hat\beta}(\cdot).$

Viés de publicação (apenas resultados estatisticamente significativos são publicados) e
Viés nos cálculos de projeto para novos estudos (tomando como tamanho de efeito muito grande o esperado).

A boa notícia é que ambos os problemas podem ser resolvidos de maneira satisfatória.

$\beta^{plausible}$ $\hat\beta$ $s.e.(\hat\beta)$ $t$ $P_{\hat\beta}(\cdot)$
$\beta^{plausible}$

Para responder brevemente minhas próprias duas perguntas:

Trata-se do viés de publicação, embora não no sentido de dragagem de dados, mas no contexto de estudos com pouca capacidade; é provável que um resultado estatisticamente significativo pertença às, por exemplo, rejeições de 5% sob o nulo (portanto, o nulo é realmente verdadeiro, mas por acaso acabamos longe disso por acaso), em vez de uma rejeição sob a alternativa (onde o null não é verdadeiro e o resultado é "genuíno").
Devo ser cauteloso ao rejeitar o nulo, porque o resultado estatisticamente significativo provavelmente se deve ao acaso (mesmo que a chance seja limitada a, digamos, 5%), e não ao efeito "genuíno" (devido à baixa potência) .

— Richard Hardy
fonte

Esta resposta de Glen_b também é muito útil.

— Richard Hardy

β^{p l a u s i b l e}

$\beta^{plausible}$

D

$D$

@PatrickB., Obrigado. Vou dar uma olhada um pouco mais tarde. (Eu vejo que eu tinha upvoted essa resposta de vocês já antes, isso significa que eu já tinha encontrado útil.)

— Richard Hardy

Richard, desenvolvi uma função R para estimar o erro do tipo "S" e do tipo "M" para um caso mais geral de tamanhos de efeito, não o que Gelman mostra na distribuição normal. Ao ler o artigo, existe um processo simples de recuperação de uma descoberta anterior e estatisticamente significativa. Mas todo o processo é completamente baseado em uma análise de poder. Em essência, para pequenos estudos ruidosos da SE é grande e assumindo várias razoável por efeito plausível empiricamente verificável tamanhos que você pode obter razoável ...

— rnorouzian

... estima o que um estudo futuro deve incluir em termos do tamanho da amostra necessário para evitar altas taxas de tipo "S" e alta taxa de exagero (ou seja, tipo "M"). Para os registros, o Tipo "S" de Gelman é simplesmente aquela peça sob a distribuição de tamanho de efeito subjacente que está no lado oposto do efeito de subalterno dividido por potência. De qualquer forma, observe a função, caso ela possa ajudar.

— Rnorouzian

Há outro ângulo deste artigo que pode ser útil se você já estiver aplicando uma análise bayesiana e não se importar com a parte da significância estatística.

$P$ $\beta$ $V$ $\beta$

p (β | V) \sim p (V | β) p (β)

$p(\beta | V) \sim p(V | \beta)p(\beta)$

$V$ $V$ $p(V | \beta)$

$\beta^{plausible}$ $P(V | \beta)$ $\beta = \beta^{plausible}$ $V$ $\beta^{plausible}$ é o tamanho real do efeito.

$V$ $\beta$

$V$ $V$

$\beta$ $\beta^{plausible}$

$\beta^{plausible}$

Você precisa ter cuidado para que ninguém use mal essa métrica de "poder", como se fosse a mesma coisa que um cálculo de poder freqüentista, o que é bastante difícil. Mas todas essas métricas são bastante úteis para análise de projeto prospectivo e retrospectivo, mesmo quando todo o procedimento de modelagem é bayesiano e não se refere a nenhum resultado de significância estatística.

— ely
fonte