Qual é a causa do problema de comparações múltiplas?

Entendo a intuição por trás do MCP, mas estou tendo problemas para identificar exatamente a causa, o que deve ser evitado ou, pelo menos, considerado.

Na sua definição mais brusca, concordo que, se eu pegar algum dado e aplicar uma abordagem de força bruta para tentar todas as hipóteses nulas possíveis, acabarei encontrando uma que possa ser rejeitada com um alfa arbitrário (por exemplo, 5%) e declarar uma descoberta.

Mas em muitas definições de MCP eu li algo como "quanto mais você testa, mais provavelmente encontrará" e, embora eu concorde, não a vejo necessariamente como um problema (ou pelo menos a raiz do problema). Por exemplo, se muitos pesquisadores estão analisando o mesmo fenômeno com os mesmos dados disponíveis, cada um testando sua própria hipótese, é mais provável que alguém chegue a uma descoberta (do que se fosse apenas um pesquisador), isso significa que eles devem aplicar algum tipo de correção no alfa alvo (por exemplo, uma correção de Bonferroni )? Suponho que a resposta seja não, mas não fica claro por que um único pesquisador testaria muitas hipóteses (novamente, concordando que o sistema de teste pode ser maltratado e deve haver uma correção para isso).

Quando essa chance aumentada de encontrar uma descoberta (rejeitar uma hipótese nula) se torna um problema? Ao pensar nas causas, existem alguns fatores que vêm à mente, mas não tenho certeza de qual deles (ou outros não listados aqui) está mais relacionado à causa desse problema:

Análise post hoc : Entendo que as hipóteses devem ser (preferencialmente) formuladas a priori; caso contrário, estou apenas olhando os dados tentando adivinhar qual hipótese eu poderia caber sob o alfa desejado.
Reutilizando dados: o problema desapareceu se eu usar conjuntos de dados diferentes para cada hipótese que teste? A chance de encontrar uma descoberta ainda aumentará o número de hipóteses que eu teste (mesmo em diferentes conjuntos de dados).
Pesquisadores independentes: reutilizando o exemplo anterior, o MCP está relacionado à mesma equipe / esforço de pesquisa? Ou se aplica a vários pesquisadores independentes que trabalham no mesmo problema (ou mesmo nos mesmos dados ou em dados semelhantes)?
Hipóteses independentes: relacionadas à questão anterior, o problema surge (ou se manifesta mais fortemente) quando as hipóteses são independentes? (porque estou cobrindo mais espaço de pesquisa) ou o problema principal é tentar hipóteses semelhantes com pequenas variações (por exemplo, ajustar um parâmetro)?

Eu poderia resumir os pontos acima, na minha interpretação, como (1) e (2) como formas de reduzir o espaço de pesquisa (terminologia de empréstimo da teoria da otimização), onde estou facilitando a descoberta de uma descoberta; e (3) e (4) como usar mais métodos de busca ortogonais que cobrem mais esse espaço de busca toda vez que são aplicados (ou seja, toda vez que uma hipótese é testada). Mas essas são apenas algumas das possíveis causas que eu poderia apresentar, para ajudar a obter uma resposta, há muito mais que sinto falta, tenho certeza.

Essa pergunta é um acompanhamento de uma pergunta anterior que pergunta por que a comparação múltipla é um problema , levantando uma questão semelhante à distinção entre a FWER e a FDR (se eu entendi a pergunta corretamente). Nesta questão, não considero isso uma questão (embora eu estivesse mais inclinado a usar o FDR), ambas as taxas implicam que há um problema ao analisar mais de uma hipótese (mas não vejo a distinção do caso quando Analiso diferentes problemas não relacionados, encontrando uma descoberta para cada um deles com 5% de significância, o que significa que, quando "resolvi" 100 problemas que rejeitam hipóteses nulas, 5 deles - valor esperado - provavelmente estavam errados). A melhor resposta para essa pergunta estava implícito que não havia uma resposta definitiva e talvez também não haja uma para esta pergunta, mas ainda assim seria muito útil (pelo menos para mim) elucidar o máximo possível onde está a causa do erro do MCP vindo de.

( Outra resposta à mesma pergunta sugeriu um artigo que explica os benefícios da perspectiva do modelo multinível bayesiano sobre a perspectiva clássica. Essa é outra abordagem interessante que vale a pena investigar, mas o escopo dessa questão é a estrutura clássica.)

Já existem várias perguntas sobre esse problema, muitas que valem a pena ser lidas (por exemplo, 1 , 2 , 3 , 4 ), que abordam (de diferentes perspectivas) as questões levantadas acima, mas ainda sinto uma resposta mais unificada (se isso é possível) está faltando, daí esta questão, que espero não diminua o (já problemático) SNR .

hypothesis-testing multiple-comparisons

— Paul Richards
fonte

"... quanto mais você testar, mais provavelmente encontrará" apenas devido ao acaso . FTFY . :) Ou seja, "apenas devido ao acaso" em vez de "devido a uma associação verdadeira".

— Alexis

Eu concordo, isso se aplica não apenas a você, mas aos outros combinados. No entanto, você não deve deixar que isso atrapalhe a análise exploratória de dados, que pode ser seguida de forma rigorosa e individual com outros dados obtidos independentemente.

— Robert Jones

Veja ncbi.nlm.nih.gov/pmc/articles/PMC3659368 para obter um exemplo famoso, importante e dramático.

— whuber

O que estou notando são várias instâncias da palavra "descoberta" na pergunta. Se você reler a pergunta que substitui cada "descoberta" por "descoberta falsa", isso poderá ajudá-lo a entender a natureza do problema mais claramente.

— Russ Lenth

Parece que, dado um conjunto de dados, quanto menor o conjunto de dados e mais pesquisadores trabalhando nele, maior a probabilidade de encontrar alguma correlação espúria no conjunto de dados devido ao acaso. Torna-se semelhante a um grande grupo de pessoas tentando "encontrar" números vencedores de bilhetes de loteria. Uma hipótese encontrada em um conjunto de dados precisa ser verificada independentemente em outro conjunto de dados para reduzir as chances de a descoberta ser falsa; mas isso depende do tamanho do conjunto de dados, de quantas pesquisas ele está trabalhando e de quanto você pode confiar nos processos de higiene dos dados.

— rinspy

Respostas:

Sua intuição está aproximadamente correta, mas pode ajudar a considerar como a comparação múltipla prejudica as suposições do próprio teste de hipótese. Quando você realiza um teste de hipótese clássico, está gerando um valor-p, que é uma medida da evidência contra a hipótese nula. O valor-p é construído de tal maneira que valores mais baixos constituem maior evidência contra o nulo e é distribuído uniformemente sob a hipótese nula . É isso que permite considerar a hipótese nula como implausível para valores de p baixos (em relação ao nível de significância).

$N > 1$ $p_1, ..., p_N \sim \text{U}(0, 1)$ $0 < \alpha < 1$ $p_{(1)} < ... < p_{(k)} < \alpha < p_{(k+1)} ... < p_{(N)}$ $0 \leqslant k \leqslant N$ $k$

Qual é o problema aqui? Bem, o problema é que, embora os valores p de cada um dos testes sejam uniformes sob suas respectivas hipóteses nulas, os valores p ordenados não são uniformes. Ao escolher os valores de p mais baixos que estão abaixo do nível de significância, você não está mais olhando para variáveis aleatórias uniformes sob suas respectivas hipóteses nulas. De fato, para grande , é provável que os valores p mais baixos tenham uma distribuição fortemente concentrada perto de zero e, portanto, é altamente provável que estejam abaixo do seu nível de significância, apesar de (por suposição) todas as hipóteses nulas para o seu valor. testes são verdadeiros. $k$ $N$

Esse fenômeno ocorre independentemente de os valores-p serem independentes ou não e, portanto, ocorre independentemente de você usar os mesmos dados ou dados diferentes para testar essas hipóteses. O problema das comparações múltiplas é que os valores p mais baixos dos testes terão distribuições nulas marginais que não são uniformes . Ajustes como a correção de Bonferroni tentam lidar com isso ajustando os valores de p ou os níveis de significância para criar uma comparação que explique esse fenômeno. $N$

— Ben - Restabelecer Monica
fonte

Portanto, se usarmos o exemplo dado no OP de um pesquisador executando vários testes em um conjunto de dados versus muitos pesquisadores individuais executando um teste cada no mesmo conjunto de dados, de modo que o conjunto de valores p para o primeiro seja o mesmo que a combinação de os valores de p individuais para este último, então o que? O mesmo valor p para um dos testes é significativo no último caso, mas não é significativo após o ajuste para MCP no primeiro? Então, ao fazer vários testes, é melhor escrever um trabalho colaborativo envolvendo o maior número de pesquisadores possível. :)

— Confundido 24/10

Independentemente de você escrever um trabalho sobre 10 testes ou dez trabalhos sobre 1 teste, o problema é o mesmo - quando você analisa várias comparações e escolhe os testes com baixos valores de p, então depende dessa escolha valores não são mais uniformes. Se dez pesquisadores escrevem dez trabalhos individuais relatando resultados de testes individuais e você escolhe o que tem o menor valor p (por exemplo, para uma apresentação), porque ele tem o menor valor p , então , nessa escolha, o valor p não é mais uniforme.

— Ben - Restabelece Monica

Desculpe, mas ainda não tenho certeza se sigo o argumento. Digamos, o mesmo conjunto de dados é testado ao ser gerado a partir de 10 distribuições diferentes. E diga que em 3 desses testes o valor de p está abaixo de algum limite alfa. Portanto, quando esses testes são realizados separadamente por pesquisadores individuais, aqueles que testaram essas três distribuições podem rejeitar o nulo de dados provenientes da distribuição específica que ele / ela testou, mas se um pesquisador realiza os testes, ele não pode rejeitar as 3 distribuições. hipótese nula?

— Confundido

Pode ser que cada pesquisador individual (sem conhecimento dos outros testes) faça um teste de hipótese sem nenhum ajuste, em relação a um nível de significância padrão. No entanto, se uma pessoa vem e lê todos esses documentos , eles precisam levar em consideração as evidências agregadas de todos eles. Isso significa que, se escolherem o papel com o menor valor de p, eles não deverão avaliar esse valor de p isoladamente dos demais. Fazer isso os levaria a aceitar uma hipótese alternativa falsa.

— Ben - Restabelece Monica

(Isso é realmente parte de um problema estatístico mais amplo: se o objeto de inferência que você usa é afetado pelos seus dados, o uso adequado desse objeto de inferência deve levar em consideração sua dependência dos dados.)

— Ben - Reinstate Monica

Você parece assumir que um pesquisador pode dizer quando uma descoberta é feita. Não é o caso. Mesmo se você "encontrar uma descoberta", nunca poderá ter certeza de que o fez (a menos que seja algum tipo de ser onisciente), porque, por mais embaraçoso que pareça, o que discrimina um alarme falso de uma descoberta na ciência é geralmente algum grau de "confiança" humana na análise.

— marsarius
fonte