Confusão com taxa de descoberta falsa e vários testes (no Colquhoun 2014)


19

Eu li este excelente artigo de David Colquhoun: Uma investigação sobre a taxa de falsas descobertas e a má interpretação dos valores-p (2014). Em essência, ele explica por que a taxa de falsas descobertas (FDR) pode chegar a , apesar de controlarmos o erro do tipo I com30% .α=0,05

No entanto, ainda estou confuso sobre o que acontece se eu aplicar o controle FDR no caso de vários testes.

Digamos, eu realizei um teste para cada uma das muitas variáveis ​​e calculei os valores usando o procedimento de Benjamini-Hochberg. Eu tenho uma variável que é significativa com q = 0,049 . Estou perguntando o que é o FDR para essa descoberta?qq=0,049

Posso assumir com segurança que, a longo prazo, se eu fizer essa análise regularmente, o FDR não será de , mas abaixo de 5 % , porque usei Benjamini-Hochberg? Isso parece errado, eu diria que o valor- q corresponde ao valor- p no artigo de Colquhoun e seu raciocínio se aplica aqui também, de modo que, ao usar um limite- q de 0,05 , arrisco-me a "me fazer de bobo" (como Colquhoun coloca) em 30 % dos casos. No entanto, tentei explicar isso formalmente e falhei.30%5%qpq0,0530%


2
Hey @ Janeiro, eu me pergunto por que você oferece uma recompensa tão grande (250) e nunca mais volta para premiá-la e / ou verificar as respostas! Espero que você esteja bem.
Ameba diz Reinstate Monica

3
Dois manuscritos caíram sobre mim como uma tonelada de tijolos e eu esqueci completamente.
janeiro

Respostas:


15

Acontece que, por coincidência, li este mesmo artigo apenas algumas semanas atrás. Colquhoun menciona várias comparações (incluindo Benjamini-Hochberg) na seção 4 ao apresentar o problema, mas acho que ele não esclarece o assunto o suficiente - então não estou surpreso ao ver sua confusão.

O ponto importante a entender é que Colquhoun está falando sobre a situação sem nenhum ajuste de comparação múltiplo. Pode-se entender o artigo de Colquhoun como adotando a perspectiva de um leitor: ele essencialmente pergunta qual a taxa de falsas descobertas (FDR) que ele pode esperar quando lê literatura científica, e isso significa qual é o FDR esperado quando nenhum ajuste de comparação múltiplo foi feito. Múltiplas comparações podem ser levadas em consideração ao executar vários testes estatísticos em um estudo, por exemplo, em um artigo. Mas ninguém nunca se ajusta a múltiplas comparações entre os papéis .

Se você realmente controla o FDR, por exemplo, seguindo o procedimento de Benjamini-Hochberg (BH), ele será controlado. O problema é que a execução do procedimento BH separadamente em cada estudo não garante o controle geral do FDR.

Posso assumir com segurança que, a longo prazo, se eu fizer essa análise regularmente, o FDR não será de , mas abaixo de 5 % , porque usei Benjamini-Hochberg?30%5%

Não. Se você usar o procedimento BH em todos os trabalhos, mas independentemente em cada um de seus trabalhos, poderá essencialmente interpretar seus valores de ajustados para BH como valores de p normais e o que Colquhoun diz ainda se aplica.pp


Observações gerais

É difícil dar uma resposta à pergunta de Colquhoun sobre o FDR esperado, pois depende de várias suposições. Se, por exemplo, todas as hipóteses nulas forem verdadeiras, o FDR será de (ou seja, todas as descobertas "significativas" seriam estatísticas). E se todos os nulos forem na realidade falsos, o FDR será zero. Portanto, o FDR depende da proporção de nulos verdadeiros, e isso é algo que foi estimado ou calculado externamente, para estimar o FDR. Colquhoun apresenta alguns argumentos a favor dos 30 %100%30% número de , mas essa estimativa é altamente sensível às suposições.

Acho que o artigo é bastante razoável, mas não gosto que faça algumas afirmações parecerem ousadas demais. Por exemplo, a primeira frase do resumo é:

Se você usar para sugerir que fez uma descoberta, estará errado pelo menos 30 % das vezes.p=0,0530%

Isso é formulado com muita força e pode realmente ser enganoso.


É verdade que só dei uma olhada rápida no artigo, mas parece-me que ele está apenas reiterando o conceito bem conhecido de que é fácil encontrar efeitos espúrios em grandes amostras (por exemplo, figura 1). O que não quer dizer que não seja significativo, mas acho que deveria ter uma interpretação diferente (e menos ousada) do que o autor fornece.
21915 Ryan Simmons

1
Não sei por que o @RyanSimmons diz que eu estava "apenas reiterando o conceito bem conhecido de que é fácil encontrar efeitos espúrios em amostras de grandes tamanhos". Não tinha nada a ver com amostras grandes! Eu realmente gostaria de receber uma explicação de por que ele acha que o artigo deveria ter "uma interpretação diferente (e menos ousada)".
David Colquhoun

"Mas ninguém nunca se ajusta a múltiplas comparações entre os papéis. Também seria bem impossível fazer isso". Eu pensei que uma das vantagens dos ajustes da taxa de descoberta falsa sobre os ajustes da taxa de erro familiar era que, enquanto o último exige uma definição de família , o primeiro é escalável em um número arbitrário de comparações?
Alexis12

pαp

Bem, o que você descreve certamente não é um procedimento de comparação múltipla. No entanto, a execução de métodos de ajuste baseados em FDR, digamos 5 testes, e a adição de mais 20 ao conjunto de 10 e a execução do mesmo método preservam novamente as probabilidades de rejeição no FDR, mas essas probabilidades de rejeição mudam no FWER. O ajuste de Bonferroni de Dunn fornece um exemplo bastante dramático.
Alexis

12

Benjamini & Hochberg definem a taxa de descoberta falsa da mesma maneira que eu, como a fração de testes positivos que são falsos positivos. Portanto, se você usar o procedimento para várias comparações, controla o FDR corretamente. Vale ressaltar, porém, que existem muitas variantes no método BH. Os seminários de Benjamini em Berkeley estão no Youtube e vale a pena assistir:

Não sei por que @amoeba diz "Isso é formulado com muita força e pode realmente ser enganoso". Eu estaria interessado em saber por que ele / ela pensa isso. O argumento mais persuasivo vem dos testes t simulados (seção 6). Isso imita o que quase todo mundo faz na prática e mostra que se você observar P perto de 0,047 e afirmar ter feito uma descoberta, estará errado pelo menos 26% do tempo. O que pode dar errado?

Obviamente, não devo descrever isso no mínimo. É o que você ganha se assumir que há 50% de chance de haver um efeito real. Obviamente, se você pressupõe que a maioria de suas hipóteses está correta com antecedência, pode obter um FDR menor que 26%, mas pode imaginar a alegria que saudaria uma alegação de que você tinha feito uma descoberta com base na suposição que você tinha 90% de certeza de que sua conclusão seria verdadeira. 26% é o FDR mínimo, uma vez que não é uma base razoável para a inferência assumir qualquer probabilidade anterior maior que 0,5.

Dado que palpites freqüentemente não se sustentam quando testados, é possível que exista apenas 10% de chance de uma hipótese específica ser verdadeira e, nesse caso, o FDR seria 76% desastroso.

É verdade que tudo isso depende da hipótese nula, sendo que existe diferença zero (o chamado ponto nulo). Outras opções podem dar resultados diferentes. Mas o ponto nulo é o que quase todo mundo usa na vida real (embora o usuário possa não estar ciente disso). Além disso, o ponto nulo parece-me algo totalmente apropriado para usar. Às vezes, é contestado que as verdadeiras diferenças nunca são exatamente zero. Discordo. Queremos dizer se nossos resultados não são distinguíveis do caso em que os dois grupos recebem tratamentos idênticos; portanto, a verdadeira diferença é exatamente zero. Se decidirmos que os dados não são compatíveis com essa visualização, calculamos o tamanho do efeito. e nesse ponto fazemos um julgamento separado sobre se o efeito, embora real, é grande o suficiente para ser importante na prática.Blog de Deborah Mayo .


@amoeba Obrigado pela sua resposta.

O que mostra a discussão no blog de Mayo é que Mayo não concorda comigo, embora ela não tenha esclarecido o porquê). Stephen Senn aponta corretamente que você pode obter uma resposta diferente se postular uma distribuição anterior diferente. Isso me parece interessante apenas para os bayesianos subjetivos.

É certamente irrelevante para a prática cotidiana, que sempre assume um ponto nulo. E, como expliquei, isso me parece perfeitamente sensato.

Muitos estatísticos profissionais chegaram a conclusões praticamente iguais às minhas. Tente Sellke & Berger e Valen Johnson (refs no meu artigo). Não há nada muito controverso (ou muito original) nas minhas alegações.

Seu outro argumento, sobre assumir um 0,5 antes, não me parece uma suposição. Como expliquei acima, qualquer coisa acima de 0,5 seria inaceitável na prática. E qualquer coisa abaixo de 0,5 aumenta ainda mais a taxa de descoberta falsa (por exemplo, 76%, se anterior for 0,1). Portanto, é perfeitamente razoável dizer que 26% é a taxa mínima de descoberta falsa que você pode esperar se observar P = 0,047 em uma única experiência.


Eu estive pensando mais sobre esta questão. Minha definição de FDR é a mesma de Benjamini - a fração de testes positivos falsos. Mas é aplicado a um problema bem diferente, a interpretação de um único teste. Em retrospectiva, poderia ter sido melhor se eu tivesse escolhido um termo diferente.

No caso de um único teste, B&H deixa o valor P inalterado, de modo que não diz nada sobre a taxa de falsas descobertas no sentido em que eu uso o termo.


es é claro que você está certo. Benjamini & Hochberg, e outras pessoas que trabalham em múltiplas comparações, visam apenas corrigir a taxa de erro do tipo 1. Então eles acabam com um valor P "correto". Está sujeito aos mesmos problemas que qualquer outro valor de P. No meu artigo mais recente, mudei o nome de FDR para Risco Falso Positivo (FPR) na tentativa de evitar esse mal-entendido.

Também criamos um aplicativo Web para fazer alguns dos cálculos (depois de perceber que poucas pessoas fazem o download dos scripts R que fornecemos). Está em https://davidcolquhoun.shinyapps.io/3-calcs-final/ Todas as opiniões sobre ele são bem-vindas (leia primeiro a guia Notas).

PS A calculadora da Web agora tem um novo (permanente, espero) em http://fpr-calc.ucl.ac.uk/ Shiny.io é fácil de usar, mas muito caro se alguém realmente usa o aplicativo :-(


Voltei a essa discussão, agora que meu segundo artigo sobre o assunto está prestes a aparecer na Royal Society Open Science. Está em https://www.biorxiv.org/content/early/2017/08/07/144337

Percebo que o maior erro que cometi no primeiro artigo foi usar o termo "taxa de descoberta falsa (FDR)". No novo artigo, deixo mais explícito que não estou dizendo nada sobre o problema das múltiplas comparações. Trato apenas da questão de como interpretar o valor de P observado em um único teste imparcial.

Na versão mais recente, refiro-me à probabilidade de que o resultado seja como risco falso positivo (FPR) e não FDR, na esperança de reduzir a confusão. Também defendo a abordagem bayesiana reversa - especifique a probabilidade anterior que seria necessária para garantir uma RPF de, digamos, 5%. Se você observar P = 0,05, chega a 0,87. Em outras palavras, você teria quase (87%) certeza de que houve um efeito real antes de fazer o experimento para atingir um FPR de 5% (que é o que a maioria das pessoas ainda acredita, por engano, p = 0,05 significa).


Caro David, bem-vindo ao CrossValidated e obrigado por participar! Parece que estamos de acordo sobre a pergunta original de janeiro: o FDR só pode ser controlado por um procedimento geral de BH; se BH for aplicado em cada artigo separadamente, seus argumentos ainda se aplicarão. Nesse caso, isso resolve a questão original. Quanto ao meu comentário sobre suas formulações "muito fortes": depois de ler 147 comentários no blog de Mayo, hesito em iniciar outra discussão. Como escrevi, concordo principalmente com o seu artigo, e minhas objeções eram apenas sobre algumas formulações. [cont.]
ameba diz Reinstate Monica

1
[...] A primeira frase do resumo é "muito forte" exatamente pelos motivos listados aqui: por exemplo, assume o ponto nulo e assume 0,5 antes, mas soa como se não assumisse nada (mas eu entendo que você tentou ser provocativo). Uma grande discussão no blog da Mayo mostra que muitas pessoas não concordam que essas suposições sejam razoáveis ​​para a prática científica real. Também tenho minhas próprias objeções, mas concordo com você que essas suposições podem descrever com precisão alguns campos científicos. E se sim, esses campos têm um grande problema, sim.
Ameba diz Reinstate Monica

2

Uma grande parte da confusão é que, apesar de seus comentários aqui em contrário, Colquhoun NÃO define FDR da mesma forma que Benjamini-Hochberg. É lamentável que Colquhoun tenha tentado cunhar um termo sem primeiro verificar, para garantir que o termo ainda não tivesse uma definição diferente e bem estabelecida. Para piorar a situação, Colquhoun definiu o FDR precisamente da maneira que o FDR convencional costuma ser mal interpretado.

Em sua resposta aqui, Colquhoun define FDR como "a fração de testes positivos que são falsos". Isso é semelhante ao que Benjamini-Hochberg define como o FDP (proporção de falsas descobertas, que não deve ser confundida com a taxa de falsas descobertas). Benjamini-Hochberg define FDR como o VALOR ESPERADO do FDP, com uma estipulação especial de que o FDP é considerado 0 quando não há testes positivos (uma estipulação que torna o FDR igual ao FWER quando todos os valores nulos são verdadeiros, e evita valores indefiníveis devido à divisão por zero).

Para evitar confusão, sugiro que não se preocupe com os detalhes no artigo de Colquhoun e, em vez disso, apenas leve a sério o ponto geral (que muitos outros também fizeram) de que o nível alfa não corresponde diretamente à proporção de testes significativos que são erros do tipo I (se estamos falando dos testes significativos em um único estudo ou em vários estudos combinados). Essa proporção depende não apenas do alfa, mas também do poder e da proporção de hipóteses nulas testadas que são verdadeiras.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.