Alta variação da distribuição dos valores-p (um argumento no Taleb 2016)

Estou tentando entender a alegação geral apresentada em Taleb, 2016, A meta-distribuição de valores-p padrão .

Nele, Taleb apresenta o seguinte argumento para a falta de confiabilidade do valor-p (como eu o entendo):

Um procedimento de estimativa operando em pontos de dados provenientes de alguma distribuição gera um valor de p. Se extrairmos mais n pontos desta distribuição e gerar outro valor p, podemos calcular a média desses valores p obtendo no limite o chamado "verdadeiro valor p". $n$ $X$

Esse "valor p verdadeiro" mostra uma variação perturbadora alta, de modo que um procedimento de distribuição + com "valor p verdadeiro" relatará 60% do tempo com um valor p <0,05. $.12$

Pergunta : como isso pode ser reconciliado com o argumento tradicional em favor do valor- . Pelo que entendi, o valor p deve dizer qual a porcentagem de tempo que seu procedimento fornecerá o intervalo correto (ou o que for). No entanto, este artigo parece argumentar que essa interpretação é enganosa, pois o valor p não será o mesmo se você executar o procedimento novamente. $p$

Estou perdendo o ponto?

hypothesis-testing statistical-significance p-value

— Lepidopterist
fonte

Você pode explicar o que é esse "argumento tradicional"? Não sei ao certo qual argumento você está considerando.

— Glen_b -Reinstar Monica

A pergunta é interessante e está relacionada a uma literatura para a qual o CV possui uma tag, combinando-p-valores que você gostaria de adicionar se achar apropriado.

— mdewey

Acredito que a questão sobre a reprodutibilidade dos valores-p possa estar intimamente relacionada a essa. Talvez a análise seja semelhante (ou mesmo a mesma) à mencionada aqui.

— whuber

Respostas:

Um valor-p é uma variável aleatória.

Sob (pelo menos para uma estatística distribuída continuamente), o valor p deve ter uma distribuição uniforme $H_0$

Para um teste consistente, em o valor de p deve ir para 0 no limite, à medida que o tamanho da amostra aumenta em direção ao infinito. Da mesma forma, à medida que os tamanhos dos efeitos aumentam, as distribuições de valores-p também tendem a mudar para 0, mas sempre serão "dispersas". $H_1$

A noção de um valor p "verdadeiro" parece absurdo para mim. O que significaria, sob ou ? Você pode, por exemplo, dizer que quer dizer " a média da distribuição dos valores-p em um determinado tamanho de efeito e tamanho da amostra ", mas, em que sentido você tem convergência onde a propagação deve encolher? Não é como se você pudesse aumentar o tamanho da amostra enquanto a mantinha constante. $H_0$ $H_1$

Aqui está um exemplo com uma amostra de testes t e um pequeno tamanho de efeito em . Os valores de p são quase uniformes quando o tamanho da amostra é pequeno e a distribuição concentra-se lentamente em 0, conforme o tamanho da amostra aumenta. $H_1$

É exatamente assim que os valores de p devem se comportar - para um nulo falso, à medida que o tamanho da amostra aumenta, os valores de p devem ficar mais concentrados em valores baixos, mas não há nada que sugira que a distribuição dos valores necessários quando você cometer um erro do tipo II - quando o valor-p estiver acima do seu nível de significância - de alguma forma deve acabar "próximo" desse nível de significância.

O que, então, seria um valor-p ser uma estimativa de ? Não é como se estivesse convergindo para algo (diferente de 0). Não está totalmente claro por que se esperaria que um valor-p tivesse baixa variação em qualquer lugar, mas quando se aproxima de 0, mesmo quando a potência é muito boa (por exemplo, para , potência no caso n = 1000, há perto de 57%, mas ainda é perfeitamente possível obter um valor p próximo de 1) $\alpha=0.05$

Muitas vezes, é útil considerar o que está acontecendo, tanto com a distribuição de qualquer estatística de teste usada sob a alternativa quanto com a aplicação do cdf sob o nulo, como uma transformação que fará na distribuição (que fornecerá a distribuição do valor p em a alternativa específica). Quando você pensa nesses termos, muitas vezes não é difícil ver por que o comportamento é como é.

O problema que vejo não é tanto o fato de existir algum problema inerente aos valores-p ou ao teste de hipóteses, é mais um caso de o teste de hipóteses ser uma boa ferramenta para o seu problema específico ou se algo mais seria mais apropriado em qualquer caso específico - essa não é uma situação para polêmicas abrangentes, mas uma consideração cuidadosa do tipo de perguntas que os testes de hipóteses abordam e as necessidades específicas de sua circunstância. Infelizmente, raramente são feitas considerações cuidadosas sobre esses problemas - muitas vezes, é exibida uma pergunta sobre a forma "que teste eu uso para esses dados?" sem considerar o que poderia ser a questão de interesse, muito menos se algum teste de hipótese é uma boa maneira de abordá-lo.

Uma dificuldade é que os testes de hipóteses são amplamente mal compreendidos e amplamente mal utilizados; as pessoas muitas vezes pensam que nos dizem coisas que não dizem. O valor de p é possivelmente a coisa mais incompreendida nos testes de hipóteses.

— Glen_b -Reinstate Monica
fonte

Penso que a convergência do valor- é definida com fixo , mas repetições do experimento. A menos que eu tenha perdido alguma coisa.

p

$p$

n

$n$

m

$m$

— Lepidopterist

@Lepidopterist As réplicas em fixo seriam apenas amostras da distribuição dos valores de p em . Em dado , o valor-p é uma variável aleatória; Eu mostro distribuições de amostras de alguns exemplos acima. O que você converge não é um valor p "verdadeiro", mas as versões suaves de população dos tipos de distribuição mostrados acima.

n

$n$

n

$n$

n

$n$

— Glen_b -Reinstar Monica

Mas se você tem uma variável aleatória, pode falar sobre sua expectativa. Em média, o valor p em H1 (em um determinado modelo) pode ser 0,12. Acho que as críticas de Taleb me parecem estranhas. Ele parece estar dizendo que, em essa expectativa pode ser 0,12, mas geralmente pode ser menor que 0,05, mas isso parece ser bom, já que é de fato verdade, mesmo que seja esperado seja> .05

H_{1}

$H_1$

H_{1}

$H_1$

— Lepidopterist

n

$n$

+1. Uma análise relacionada - e divertida - que me vem à mente é o que Geoff Cumming chama de "Uma dança de valores-p": veja youtube.com/watch?v=5OL1RqHrZQ8 (a "dança" acontece por volta dos 9 minutos) . Essa pequena apresentação enfatiza basicamente como os valores de p são variáveis para uma potência relativamente alta. Não concordo totalmente com o ponto principal de Cumming de que os intervalos de confiança são muito melhores que os valores-p (e odeio que ele a chame de "novas estatísticas"), mas acho que essa variabilidade de quantidade é surpreendente para muitas pessoas e os "dance" é uma maneira fofa de demonstrá-lo.

— Ameba diz Reinstate Monica

A resposta de Glen_b está no local (+1; considere a minha suplementar). O artigo que você menciona por Taleb é topicamente muito semelhante a uma série de artigos na literatura de psicologia e estatística sobre que tipo de informação você pode obter ao analisar distribuições de valores-p (o que os autores chamam de curva-p ; consulte seu site com um vários recursos, incluindo um aplicativo de análise de curva p aqui ).

Os autores propõem dois usos principais da curva p:

Você pode avaliar o valor probatório de uma literatura analisando a curva p da literatura . Este foi o primeiro uso anunciado da curva-p. Essencialmente, como Glen_b descreve, ao lidar com tamanhos de efeito diferentes de zero, você deve ver curvas p inclinadas positivamente abaixo do limite convencional de p <0,05, pois valores p menores devem ser mais prováveis que p- valores mais próximos de p= .05 quando um efeito (ou grupo de efeitos) é "real". Portanto, você pode testar uma curva p para obter uma inclinação positiva significativa como um teste de valor probatório. Por outro lado, os desenvolvedores propõem que você possa executar um teste de inclinação negativa (ou seja, valores-p mais significativos do que os menores) como uma maneira de testar se um determinado conjunto de efeitos foi sujeito a várias práticas analíticas questionáveis.
Você pode calcular uma estimativa meta-analítica sem viés de publicação do tamanho do efeito usando a curva p com os valores p publicados . Este é um pouco mais complicado de explicar de maneira sucinta e, em vez disso, eu recomendo que você verifique os documentos focados na estimativa do tamanho do efeito (Simonsohn, Nelson & Simmons, 2014a, 2014b) e leia os métodos você mesmo. Mas, essencialmente, os autores sugerem que a curva p pode ser usada para contornar o problema do efeito de gaveta de arquivo ao realizar uma meta-análise.

Portanto, quanto à sua pergunta mais ampla sobre:

como isso pode ser reconciliado com o argumento tradicional em favor do valor-p?

Eu diria que métodos como o de Taleb (e outros) encontraram uma maneira de redefinir os valores-p, para que possamos obter informações úteis sobre literaturas inteiras analisando grupos de valores-p, enquanto um valor-p por si só pode ser muito mais limitado em sua utilidade.

Referências

Simonsohn, U., Nelson, LD, e Simmons, JP (2014a). Curva-P: uma chave para a gaveta de arquivos. Journal of Experimental Psychology: General , 143 , 534-547.

Simonsohn, U., Nelson, LD, e Simmons, JP (2014b). Curva-P e tamanho do efeito: corrigindo o viés de publicação usando apenas resultados significativos. Perspectives on Psychological Science , 9 , 666-681.

Simonsohn, U., Simmons, JP & Nelson, LD (2015). Melhores curvas P: Tornando a análise da curva P mais robusta a erros, fraudes e hackers P ambiciosos, uma resposta a Ulrich e Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.

— jsakaluk
fonte