Benjamini & Hochberg definem a taxa de descoberta falsa da mesma maneira que eu, como a fração de testes positivos que são falsos positivos. Portanto, se você usar o procedimento para várias comparações, controla o FDR corretamente. Vale ressaltar, porém, que existem muitas variantes no método BH. Os seminários de Benjamini em Berkeley estão no Youtube e vale a pena assistir:
Não sei por que @amoeba diz "Isso é formulado com muita força e pode realmente ser enganoso". Eu estaria interessado em saber por que ele / ela pensa isso. O argumento mais persuasivo vem dos testes t simulados (seção 6). Isso imita o que quase todo mundo faz na prática e mostra que se você observar P perto de 0,047 e afirmar ter feito uma descoberta, estará errado pelo menos 26% do tempo. O que pode dar errado?
Obviamente, não devo descrever isso no mínimo. É o que você ganha se assumir que há 50% de chance de haver um efeito real. Obviamente, se você pressupõe que a maioria de suas hipóteses está correta com antecedência, pode obter um FDR menor que 26%, mas pode imaginar a alegria que saudaria uma alegação de que você tinha feito uma descoberta com base na suposição que você tinha 90% de certeza de que sua conclusão seria verdadeira. 26% é o FDR mínimo, uma vez que não é uma base razoável para a inferência assumir qualquer probabilidade anterior maior que 0,5.
Dado que palpites freqüentemente não se sustentam quando testados, é possível que exista apenas 10% de chance de uma hipótese específica ser verdadeira e, nesse caso, o FDR seria 76% desastroso.
É verdade que tudo isso depende da hipótese nula, sendo que existe diferença zero (o chamado ponto nulo). Outras opções podem dar resultados diferentes. Mas o ponto nulo é o que quase todo mundo usa na vida real (embora o usuário possa não estar ciente disso). Além disso, o ponto nulo parece-me algo totalmente apropriado para usar. Às vezes, é contestado que as verdadeiras diferenças nunca são exatamente zero. Discordo. Queremos dizer se nossos resultados não são distinguíveis do caso em que os dois grupos recebem tratamentos idênticos; portanto, a verdadeira diferença é exatamente zero. Se decidirmos que os dados não são compatíveis com essa visualização, calculamos o tamanho do efeito. e nesse ponto fazemos um julgamento separado sobre se o efeito, embora real, é grande o suficiente para ser importante na prática.Blog de Deborah Mayo .
@amoeba Obrigado pela sua resposta.
O que mostra a discussão no blog de Mayo é que Mayo não concorda comigo, embora ela não tenha esclarecido o porquê). Stephen Senn aponta corretamente que você pode obter uma resposta diferente se postular uma distribuição anterior diferente. Isso me parece interessante apenas para os bayesianos subjetivos.
É certamente irrelevante para a prática cotidiana, que sempre assume um ponto nulo. E, como expliquei, isso me parece perfeitamente sensato.
Muitos estatísticos profissionais chegaram a conclusões praticamente iguais às minhas. Tente Sellke & Berger e Valen Johnson (refs no meu artigo). Não há nada muito controverso (ou muito original) nas minhas alegações.
Seu outro argumento, sobre assumir um 0,5 antes, não me parece uma suposição. Como expliquei acima, qualquer coisa acima de 0,5 seria inaceitável na prática. E qualquer coisa abaixo de 0,5 aumenta ainda mais a taxa de descoberta falsa (por exemplo, 76%, se anterior for 0,1). Portanto, é perfeitamente razoável dizer que 26% é a taxa mínima de descoberta falsa que você pode esperar se observar P = 0,047 em uma única experiência.
Eu estive pensando mais sobre esta questão. Minha definição de FDR é a mesma de Benjamini - a fração de testes positivos falsos. Mas é aplicado a um problema bem diferente, a interpretação de um único teste. Em retrospectiva, poderia ter sido melhor se eu tivesse escolhido um termo diferente.
No caso de um único teste, B&H deixa o valor P inalterado, de modo que não diz nada sobre a taxa de falsas descobertas no sentido em que eu uso o termo.
es é claro que você está certo. Benjamini & Hochberg, e outras pessoas que trabalham em múltiplas comparações, visam apenas corrigir a taxa de erro do tipo 1. Então eles acabam com um valor P "correto". Está sujeito aos mesmos problemas que qualquer outro valor de P. No meu artigo mais recente, mudei o nome de FDR para Risco Falso Positivo (FPR) na tentativa de evitar esse mal-entendido.
Também criamos um aplicativo Web para fazer alguns dos cálculos (depois de perceber que poucas pessoas fazem o download dos scripts R que fornecemos). Está em https://davidcolquhoun.shinyapps.io/3-calcs-final/ Todas as opiniões sobre ele são bem-vindas (leia primeiro a guia Notas).
PS A calculadora da Web agora tem um novo (permanente, espero) em http://fpr-calc.ucl.ac.uk/
Shiny.io é fácil de usar, mas muito caro se alguém realmente usa o aplicativo :-(
Voltei a essa discussão, agora que meu segundo artigo sobre o assunto está prestes a aparecer na Royal Society Open Science. Está em https://www.biorxiv.org/content/early/2017/08/07/144337
Percebo que o maior erro que cometi no primeiro artigo foi usar o termo "taxa de descoberta falsa (FDR)". No novo artigo, deixo mais explícito que não estou dizendo nada sobre o problema das múltiplas comparações. Trato apenas da questão de como interpretar o valor de P observado em um único teste imparcial.
Na versão mais recente, refiro-me à probabilidade de que o resultado seja como risco falso positivo (FPR) e não FDR, na esperança de reduzir a confusão. Também defendo a abordagem bayesiana reversa - especifique a probabilidade anterior que seria necessária para garantir uma RPF de, digamos, 5%. Se você observar P = 0,05, chega a 0,87. Em outras palavras, você teria quase (87%) certeza de que houve um efeito real antes de fazer o experimento para atingir um FPR de 5% (que é o que a maioria das pessoas ainda acredita, por engano, p = 0,05 significa).