Por que os resultados de 0,05 <p <0,95 são chamados de falsos positivos?

Edit: A base da minha pergunta é falha, e eu preciso gastar algum tempo para descobrir se isso pode ser feito para fazer sentido.

Edit 2: Esclarecendo que reconheço que um valor p não é uma medida direta da probabilidade de uma hipótese nula, mas que assumo que quanto mais próximo um valor p estiver de 1, maior a probabilidade de uma hipótese ter foi escolhido para testes experimentais cuja hipótese nula correspondente é verdadeira, enquanto quanto mais próximo o valor p for de 0, maior a probabilidade de uma hipótese ter sido escolhida para testes experimentais cuja hipótese nula correspondente é falsa. Não vejo como isso é falso, a menos que o conjunto de todas as hipóteses (ou todas as hipóteses escolhidas para experimentos) seja de alguma forma patológico.

Edit 3: Acho que ainda não estou usando uma terminologia clara para fazer minha pergunta. À medida que os números da loteria são lidos e você os combina com o seu bilhete, um por um, algo muda. A probabilidade de ganhar não muda, mas a probabilidade de desligar o rádio. Há uma mudança semelhante que acontece quando os experimentos são concluídos, mas tenho a sensação de que a terminologia que estou usando - "valores-p alteram a probabilidade de escolha de uma hipótese verdadeira" - não é a terminologia correta.

Edição 4: recebi duas respostas incrivelmente detalhadas e informativas que contêm muitas informações para eu trabalhar. Vou votar nos dois agora e depois voltarei a aceitar um quando tiver aprendido o suficiente com ambas as respostas para saber que elas responderam ou invalidaram minha pergunta. Essa pergunta abriu uma lata de vermes muito maior do que a que eu esperava comer.

Nos artigos que li, vi resultados com p> 0,05 após a validação chamada "falsos positivos". No entanto, não é ainda mais provável que eu tenha escolhido uma hipótese para testar com uma hipótese nula correspondente falsa quando os dados experimentais têm um p ~~<0,50,~~ que é baixo, mas> 0,05, e não são a hipótese nula e a hipótese de pesquisa estatisticamente incerta / insignificante (dado o ponto de corte de significância estatística convencional) entre 0,05 <p < ~~0,95,~~ seja qual for o inverso de p <0,05, dada a assimetria apontada no link do @ NickStauner ?

Vamos chamar esse número A e defini-lo como o valor p que diz a mesma coisa sobre a probabilidade de você ter escolhido uma hipótese nula verdadeira para seu experimento / análise que um valor p de 0,05 diz sobre a probabilidade de você " escolhi uma hipótese não nula verdadeira para seu experimento / análise. Não 0,05 <p <Apenas diga: "O tamanho da sua amostra não era grande o suficiente para responder à pergunta e você não poderá julgar a importância do aplicativo / do mundo real até obter uma amostra maior e obter suas estatísticas significado resolvido "?

Em outras palavras, não seria correto chamar um resultado definitivamente falso (em vez de simplesmente não suportado) se e somente se p> A?

Isso parece direto para mim, mas esse uso generalizado me diz que eu posso estar errado. Sou eu:

a) interpretando mal a matemática;
b) reclamando de uma convenção inofensiva, se não exatamente correta;
c) completamente correta; ou
d) outra?

Reconheço que isso soa como um pedido de opiniões, mas parece uma pergunta com uma resposta matematicamente correta e definitiva (quando é definido um limite de significância) que eu ou (quase) todo mundo está errado.

hypothesis-testing p-value

— Andrew Klaassen
fonte

Olá David. Aqui está o papel que me fez pensar sobre isso: ligação

— Andrew Klaassen

Na sua primeira linha, você não deseja escrever "... resultados originalmente com mas subsequentemente com

após a validação ..."? Um resultado com

maior que o limiar

caso contrário, é denominado resultado negativo . Mesmo após as edições, sua caracterização da interpretação de

está incorreta. Por isso, gostaria de sugerir alguns momentos para revisar algumas de nossas postagens sobre a interpretação dos valores de p e reconsiderar o que você deseja perguntar.

p < 0.05

$p\lt 0.05$

p \geq 0.05

$p\ge 0.05$

p

$p$

α

$\alpha$

p

$p$

— whuber

Você pode excluir sua pergunta, se desejar, mas, como recebeu duas votações positivas (ah, que coisa é essa, vamos fazer 3), uma resposta votada e está prestes a receber outra resposta de "sua verdadeiramente", peço que você a deixe ativo e trabalhe nele como achar melhor, embora respeite respeitosamente o seu direito de fazer o que quiser. Felicidades!

— Nick Stauner

Concordo com @Nick, Andrew: você tem uma pergunta convincente e provocativa aqui que atraiu algum pensamento e atenção; portanto, ficaríamos muito gratos se você a mantivesse informada e, se puder, refinasse um pouco para focar no assunto. questão-chave sobre como os valores-p são interpretados. A parte nova, pelo que posso dizer, é a sugestão de que o critério de rejeição deve se basear em um grande valor-p. Re seu comentário: um falso positivo ocorre quando o teste é significativo, mas sabe-se que a hipótese nula é verdadeira.

— whuber

@whuber: O foco mais atraente para mim é o resultado que sugere que uma experiência de acompanhamento com um tamanho de amostra maior provavelmente será produtiva. Dadas as respostas até agora, parece que eu preciso perguntar se os valores de p podem estar relacionados a essa pergunta. Reconhecendo que a hipótese nula é verdadeira como a medida de um falso positivo: Quando alguém diria que uma hipótese nula é verdadeira fora da situação p> (1 - α)?

— Andrew Klaassen

Respostas:

Sua pergunta é baseada em uma premissa falsa:

não é a hipótese nula ainda mais provável do que não estar errada quando p <0,50

Um valor-p não é uma probabilidade de que a hipótese nula seja verdadeira. Por exemplo, se você tomou mil casos em que a hipótese nula é verdadeira, metade deles terá p < .5. Aqueles metade vai tudo ser nulo.

De fato, a idéia que p > .95significa que a hipótese nula é "provavelmente verdadeira" é igualmente enganosa. Se a hipótese nula for verdadeira, a probabilidade p > .95é exatamente a mesma que a probabilidade p < .05.

ETA: sua edição esclarece qual é o problema: você ainda tem o problema acima (que está tratando um valor-p como uma probabilidade posterior, quando não está). É importante notar que essa não é uma distinção filosófica sutil (como eu acho que você está sugerindo na sua discussão sobre os bilhetes de loteria): tem enormes implicações práticas para qualquer interpretação dos valores-p.

Mas não é uma transformação que você pode executar em p-valores que você vai chegar ao que você está procurando, e é chamado a taxa de descoberta de falsas local. (Como descrito neste belo artigo , é o equivalente freqüente da "probabilidade de erro posterior", então pense dessa maneira, se quiser).

Vamos trabalhar com um exemplo concreto. Digamos que você esteja realizando um teste t para determinar se uma amostra de 10 números (de uma distribuição normal) tem uma média de 0 (um teste t de uma amostra e frente e verso). Primeiro, vamos ver como é a distribuição do valor p quando a média realmente é zero, com uma curta simulação R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

insira a descrição da imagem aqui

Como podemos ver, os valores p nulos têm uma distribuição uniforme (igualmente provável em todos os pontos entre 0 e 1). Essa é uma condição necessária dos valores-p: na verdade, é precisamente o que os valores-p significam! (Dado que o nulo é verdadeiro, existe uma chance de 5% de ser menor que 0,05, uma chance de 10% de ser menor que 0,1 ...)

Agora vamos considerar os casos de hipótese alternativos em que o nulo é falso. Agora, isso é um pouco mais complicado: quando o nulo é falso, "quão falso" é? A média da amostra não é 0, mas é 0,5? 1? 10? Varia aleatoriamente, às vezes pequeno e às vezes grande? Por uma questão de simplicidade, digamos que seja sempre igual a 0,5 (mas lembre-se dessa complicação, isso será importante mais tarde):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

insira a descrição da imagem aqui

Observe que a distribuição agora não é uniforme: é deslocada para 0! No seu comentário, você menciona uma "assimetria" que fornece informações: é essa assimetria.

Imagine que você conheceu as duas distribuições, mas está trabalhando com um novo experimento e também tem um prévio de que há 50% de chance de ser nulo e 50% de alternativa. Você obtém um valor-p de 0,7. Como você pode obter isso e o valor de p para uma probabilidade?

O que você deve fazer é comparar as densidades :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

E observe seu valor-p:

abline(v=.7, col="red", lty=2)

insira a descrição da imagem aqui

Essa razão entre a densidade nula e a densidade alternativa pode ser usada para calcular a taxa de descoberta falsa local : quanto maior o nulo for relativo à alternativa, maior o FDR local. Essa é a probabilidade de a hipótese ser nula (tecnicamente, ela tem uma interpretação freqüentista mais rigorosa, mas vamos mantê-la simples aqui). Se esse valor é muito alto, então você pode fazer a interpretação "a hipótese nula é quase certamente verdade." Na verdade, você pode estabelecer um limite de 0,05 e 0,95 do FDR local: isso teria as propriedades que você está procurando. (E como o FDR local aumenta monotonicamente com o valor-p, pelo menos se você estiver fazendo isso corretamente, isso se traduzirá em alguns limites A e B, onde você pode dizer "

Agora, já posso ouvi-lo perguntando "então por que não usamos isso em vez de valores-p?" Duas razões:

Você precisa decidir sobre uma probabilidade anterior de que o teste seja nulo
Você precisa conhecer a densidade da alternativa. Isto é muito difícil de adivinhar, porque você precisa para determinar como grande seu efeito tamanhos e variações podem ser, e quantas vezes eles são assim!

Você não precisa de nenhum deles para um teste de valor p, e um teste de valor p ainda permite evitar falsos positivos (que é seu objetivo principal). Agora, é possível estimar esses dois valores em vários testes de hipóteses, quando você possui milhares de valores-p (como um teste para cada um dos milhares de genes: veja este artigo ou este artigo, por exemplo), mas não quando você está fazendo um único teste.

Por fim, você pode dizer "O artigo ainda não está errado em dizer que uma replicação que leva a um valor de p acima de 0,05 é necessariamente um falso positivo?" Bem, embora seja verdade que obter um valor p de 0,04 e outro valor p de 0,06 não significa realmente que o resultado original estava errado, na prática, é uma métrica razoável a ser escolhida. Mas, de qualquer forma, você pode ficar feliz em saber que outras pessoas têm dúvidas sobre isso! O artigo a que você se refere é um pouco controverso em estatística: este artigo usa um método diferente e chega a uma conclusão muito diferente sobre os valores-p da pesquisa médica, e esse estudo foi criticado por alguns bayesianos proeminentes (e assim por diante ...) Portanto, embora sua pergunta se baseie em algumas suposições incorretas sobre valores-p, acho que examina uma suposição interessante por parte do artigo que você cita.

— David Robinson
fonte

Olá David. Ponto justo. Vou trabalhar na reformulação da minha pergunta para não errar nessa parte e ver se ainda vejo algum problema.

— Andrew Klaassen

@ David_Robinson: Seria correto usar o valor p como taxa de falso alarme na regra bayesiana e ser capaz de tirar conclusões sobre a probabilidade da pesquisa e / ou hipóteses nulas? Definir o anterior para 50% e jogar rápido e solto a partir daí? :-)

— Andrew Klaassen

Sim, fascinante! Você pode trabalhar com isso na sua resposta? Mas há uma assimetria entre como p se comporta quando nulo é verdadeiro versus quando é falso que deve fornecer algumas informações sobre a probabilidade de que a hipótese nula seja verdadeira com base no valor p extraído dos dados. Se uma hipótese nula verdadeira produz valores p uniformemente distribuídos, e uma hipótese não nula verdadeira produz valores p inclinados para 0, puxando p = 0,01 mármore ~ deve ~ sugerir que você provavelmente escolheu -pote de experimentos nulo, mesmo que a probabilidade não seja alterada ao realizar o experimento.

— Andrew Klaassen

@AndrewKlaassen: Você pode estar interessado no conceito de "taxa local de descoberta falsa". É um equivalente freqüentador da probabilidade posterior bayesiana de que o nulo seja verdadeiro. Requer duas coisas: a) Uma probabilidade anterior de que o nulo seja verdadeiro (às vezes chamado pi0) eb) uma estimativa da densidade para a hipótese alternativa. No teste de múltiplas hipóteses (se você tivesse milhares de valores-p), é possível estimar ambos examinando a densidade. Se eu tiver um pouco mais de tempo, talvez eu explique mais profundamente minha resposta.

— David Robinson

@AndrewKlaassen: Veja minha edição, onde explico o FDR local em detalhes, por que é a maneira de calcular seu valor "A" (embora você possa querer mudar .05 enquanto calcula A), e também por que raramente é usado . De qualquer forma, para esclarecer um ponto que realmente não se encaixa na resposta: o seu exemplo com o bilhete de loteria não entende o que eu e outros estamos fazendo. Não estávamos apegados à idéia de "as probabilidades mudam com novas informações" (tanto os bayesianos quanto os freqüentadores têm sua interpretação disso): o ponto é que você não os estava mudando da maneira certa!

— David Robinson

^$\leftarrow$

$p>.05$ $p<.05$ $p>.05$ (NHST). Mal-entendidos não são incomuns na literatura de pesquisa publicada, pois o NHST é notoriamente contra-intuitivo. Este é um dos gritos de guerra da invasão bayesiana (que eu apoio, mas ainda não o segue ...). Até recentemente, trabalhei com impressões errôneas como essas, por isso simpatizo com todo o coração.

$p$ $p$ $p$ $p$ $p$ ⁾ , entre outras vantagens, e deixando de lado desvantagens discutíveis. (Para ser justo, consulte “ Quais são os contras da análise bayesiana? ” Você também comentou para citar artigos que podem oferecer algumas respostas legais lá: ^{Moyé, 2008; Hurlbert & Lombardi, 2009. )}

Pode-se argumentar que a hipótese nula, como literalmente declarada, geralmente é mais provável do que não estar errada, porque as hipóteses nulas são mais comumente, literalmente, hipóteses de efeito zero . (Para alguns contra-exemplos úteis, consulte as respostas para: " Grandes conjuntos de dados são inadequados para o teste de hipóteses? ") Questões filosóficas, como o efeito borboleta, ameaçam a validade literal de qualquer hipótese; portanto, o nulo é útil geralmente como base de comparação para uma hipótese alternativa de algum efeito diferente de zero. Essa hipótese alternativa pode permanecer mais plausível que o nulo após a coleta de dados que seria improvável se o nulo fosse verdadeiro. Portanto, os pesquisadores normalmente inferem o apoio a uma hipótese alternativa a partir de evidências contra o nulo, mas não é isso que os valores p quantificam diretamente ^{( Wagenmakers, 2007 )} .

Como você suspeita, a significância estatística é uma função do tamanho da amostra , bem como do tamanho e consistência do efeito. (Veja a resposta da @ gung à recente pergunta: " Como pode um teste t de ser estatisticamente significativa, se a diferença média é quase 0? ") As perguntas que muitas vezes a intenção de pedir de nossos dados são: "Qual é o efeito de xon y? " Por várias razões (incluindo IMO, programas educacionais equivocados e de alguma forma deficientes em estatística, especialmente como ensinados por não estatísticos), geralmente nos encontramos perguntando literalmente a pergunta vagamente relacionada: "Qual é a probabilidade de amostragem de dados como os meus aleatoriamente de uma população em que xnão afetay $p$ $p$

$.05<p<.95$ $\ne$ - outra dúzia suja de Goodman (2008); isso depende muito mais do significado dos dados, com os quais a significância estatística se refere apenas a uma extensão limitada. Veja minha resposta ao acima .

Não deveria ser correto chamar um resultado definitivamente falso (em vez de simplesmente não suportado) se ... p> 0,95?

Como os dados geralmente devem representar observações empiricamente factuais, eles não devem ser falsos; apenas inferências sobre eles devem enfrentar esse risco, idealmente. (É claro que o erro de medição ocorre muito naturalmente, mas esse problema está fora do escopo desta resposta, portanto, além de mencioná-lo aqui, deixarei em branco.) Sempre existe o risco de fazer uma inferência falsa positiva sobre o nulo ser menos útil do que a hipótese alternativa, pelo menos, a menos que o inferidor saiba que o nulo é verdadeiro. Somente na circunstância bastante difícil de conceber que o nulo seja literalmente verdadeiro é que uma inferência a favor de uma hipótese alternativa seria definitivamente falsa ... pelo menos, tanto quanto posso imaginar no momento.

Claramente, o amplo uso ou convenção não é a melhor autoridade em validade epistêmica ou inferencial. Até os recursos publicados são falíveis; veja, por exemplo, Falácia na definição de valor-p . Sua referência ^{( Hurlbert e Lombardi, 2009 ) também} oferece uma exposição interessante desse princípio ^{(página 322):}

StatSoft (2007) ostenta em seu site que seu manual on-line “é o único recurso da Internet sobre estatísticas recomendadas pela Encyclopedia Brittanica”. Nunca foi tão importante "desconfiar da autoridade", como diz o adesivo. [URL comicamente quebrado convertido em texto com hiperlink.]

$p$ $p$ _{Espero poder convencer Michael a comentar aqui, marcando-o como eu tenho (mas não tenho certeza de que as tags de usuário enviem notificações quando editadas - não acho que a sua no OP o fez). Ele pode ser o único que pode salvar Nuzzo - até a própria natureza ! Ajude-nos Obi-Wan! (E perdoe-me se a minha resposta aqui demonstrar que ainda não compreendi as implicações do seu trabalho, o que tenho certeza de que tenho em todo caso ...)} Aliás, Nuzzo também oferece intrigante autodefesa e refutação de "Problema 3" de Wagenmaakers: veja a figura de "causa provável" de Nuzzo e citações de apoio ^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner e Greenberg, 2007 )} . Elas podem conter apenas a resposta que você '

Re: sua pergunta de múltipla escolha, eu seleciono d. Você pode ter interpretado mal alguns conceitos aqui, mas certamente não está sozinho, e vou deixar o julgamento para você, pois só você sabe no que realmente acredita. A má interpretação implica certa quantidade de certeza, enquanto que fazer uma pergunta implica o contrário, e esse impulso de questionar quando incerto é bastante louvável e longe de onipresente, infelizmente. Essa questão da natureza humana faz com que o incorreto de nossas convenções seja inofensivo e mereça reclamações como as aqui mencionadas. (Agradecemos em parte a você!) No entanto, sua proposta também não está completamente correta.

$p$ $p$ , Sou uma autoridade fraca na melhor das hipóteses e congratulo-me com quaisquer correções ou elaborações que outros possam oferecer ao que disse aqui. Tudo o que posso opinar em conclusão é que provavelmente existe uma resposta matematicamente correta, e pode ser que a maioria das pessoas entenda errado. A resposta certa certamente não é fácil, pois as seguintes referências demonstram ...

$p$ $p$

Referências

_{- Goodman, SN (1992). Um comentário sobre replicação, valores- P e evidência. Statistics in Medicine, 11 (7), 875-879.

- Goodman, SN (2001). De P -Valores e Bayes: Uma proposta modesta. Epidemiology, 12 (3), 295-297. Recuperado em http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Uma dúzia suja: equívocos de doze valores de P. Seminários em Hematologia, 45 (3), 135–140. Recuperado em http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. e Greenberg, DA (2007). Não replicação de estudos de associação: “pseudo-falhas” para replicar? Genetics in Medicine, 9 (6), 325-331. Recuperado em http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH, e Lombardi, CM (2009). Colapso final do referencial teórico da decisão Neyman – Pearson e ascensão do neoFisherian. Annales Zoologici Fennici, 46 (5), 311-349. Recuperado em http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). Para P ou não para P: Sobre a natureza evidencial dos valores de P e seu lugar na inferência científica. arXiv: 1311.0081 [stat.ME]. Recuperado dehttp://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Bayesianos em ensaios clínicos: Adormecido no interruptor. Statistics in Medicine, 27 (4), 469-482.

- Nuzzo, R. (2014, 12 de fevereiro). Método científico: erros estatísticos. Nature News, 506 (7487). Recuperado em http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Wagenmakers, EJ (2007). Uma solução prática para os problemas difundidos dos valores de p . Psychonomic Bulletin & Review, 14 (5), 779-804. Recuperado em http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Nick Stauner
fonte

Ainda estou trabalhando na sua resposta muito completa (obrigado por isso), mas sua menção à "invasão bayesiana" me fez pensar em "bayesianos em ensaios clínicos: dormindo no interruptor", reimpresso como o capítulo 12 aqui , que eu ' Eu também estou passando a cabeça devagar.

— Andrew Klaassen

"Você alcançou uma página que não está disponível para visualização ou atingiu seu limite de visualização para este livro" ...?

— Nick Stauner 27/02

Isso é lamentável. Se você tiver acesso ao diário, também poderá encontrá-lo aqui . Uma busca pela frase "bayesianos estão quebrando barreiras tradicionais em ensaios clínicos" também pode levá-lo até lá.

— Andrew Klaassen

O colapso final do arcabouço teórico de decisão de Neyman-Pearson e a ascensão do neoFisherian também contêm uma história divertida de valores-p e ataques aos usos da análise bayesiana na pesquisa. Não posso dizer que entendi bem o suficiente para avaliá-lo, mas acho que é bom pelo menos estar ciente das correções para os atuais entusiastas.

— Andrew Klaassen

@NickStauner Acabou de encontrar esta discussão. Não é necessário que pelo menos uma conta esteja errada se houver um conjunto de contas que discordam. Eles podem ser baseados em modelos diferentes. [Se você é um jogo, deve ler o livro de Bill Thompson, The Nature of Statistical Evidence (2005).] No entanto, minha conta está definitivamente certa ;-) (Embora esta manhã tenha sido rejeitada por um diário novamente.) Encontrei o jornal Nuzzo para: ser descuidado e potencialmente enganoso.

— Michael Lew