O que há de errado com os ajustes da Bonferroni?

23

Li o seguinte artigo: Perneger (1998) O que há de errado com os ajustes de Bonferroni .

O autor resumiu dizendo que o ajuste de Bonferroni tem, na melhor das hipóteses, aplicações limitadas na pesquisa biomédica e não deve ser usado na avaliação de evidências sobre hipóteses específicas:

Resumo pontos:

Ajustar a significância estatística para o número de testes que foram realizados nos dados do estudo - o método Bonferroni - cria mais problemas do que resolve

O método Bonferroni se preocupa com a hipótese nula geral (que todas as hipóteses nulas são verdadeiras simultaneamente), que raramente são de interesse ou de uso para pesquisadores

A principal fraqueza é que a interpretação de uma descoberta depende do número de outros testes realizados

A probabilidade de erros do tipo II também aumenta, de modo que diferenças realmente importantes são consideradas não significativas

Simplesmente descrever quais testes de significância foram realizados e por que geralmente é a melhor maneira de lidar com múltiplas comparações.

Eu tenho o seguinte conjunto de dados e desejo fazer várias correções de teste, MAS não consigo decidir o melhor método nesse caso.

insira a descrição da imagem aqui

Quero saber se é imperativo fazer esse tipo de correção para todos os conjuntos de dados que contêm listas de médias e qual é o melhor método para a correção nesse caso?

hypothesis-testing multiple-comparisons bonferroni

— goro
fonte

o que exatamente é 'médio A', 'médio B' ...?

3

Ao não corrigir várias comparações, você corre o risco de resultados irreprodutíveis. Muitos campos, incluindo medicina e psicologia, descobriram recentemente que é exatamente o que aconteceu: muito do que eles "sabem" com base em valores-p não corrigidos acaba não sendo assim. Sem querer parecer cínico, parece que a escolha é clara: o pesquisador que precisa atender a um critério de valor-p para publicar não corrigirá; o cético que quer conhecimento quer.

— whuber

@whuber, mas ainda pode ser considerado reproduzível quando existem tantos métodos diferentes para corrigir os valores de p? Em sua resposta, martino até dá orientações para escolher entre métodos menos conservadores ou mais poderosos.

— Nakx

A reprodutibilidade do @Nakx está apenas vagamente associada ao procedimento estatístico: refere-se à obtenção ou não de resultados comparáveis quando a pesquisa for realizada independentemente por outros (e presumivelmente em tais tentativas de replicação, uma única hipótese clara será articulada com antecedência e será utilizado um procedimento estatístico apropriado a essa hipótese). Se o procedimento original não produzir um valor p correto, quando usado muitas vezes em muitos estudos independentes, ele fará, em média, determinações mais irreprodutíveis do que seus usuários pretendem ou esperam.

— whuber

23

O que há de errado com a correção de Bonferroni, além do conservadorismo mencionado por outros, é o que está errado com todas as correções de multiplicidade. Eles não seguem os princípios estatísticos básicos e são arbitrários; não existe uma solução única para o problema da multiplicidade no mundo freqüentista. Em segundo lugar, os ajustes de multiplicidade são baseados na filosofia subjacente de que a veracidade de uma afirmação depende de quais outras hipóteses são consideradas. Isso é equivalente a uma configuração bayesiana, na qual a distribuição anterior de um parâmetro de interesse fica cada vez mais conservadora à medida que outros parâmetros são considerados. Isso não parece ser coerente. Pode-se dizer que essa abordagem vem de pesquisadores que foram "queimados" por uma história de experimentos falsos positivos e agora eles querem compensar seus erros.

Para expandir um pouco, considere a seguinte situação. Um pesquisador de oncologia fez uma carreira no estudo da eficácia de quimioterapias de uma determinada classe. Todos os 20 anteriores de seus ensaios randomizados resultaram em eficácia estatisticamente insignificante. Agora ela está testando uma nova quimioterapia na mesma classe. O benefício de sobrevivência é significativo com $P=0.04$ . Um colega ressalta que houve um segundo desfecho estudado (retração do tumor) e que um ajuste de multiplicidade precisa ser aplicado ao resultado da sobrevida, gerando um benefício insignificante de sobrevida. Como o colega enfatizou o segundo ponto final, mas não se importou em ajustar-se às 20 tentativas anteriores fracassadas de encontrar um medicamento eficaz? E como você levaria em conta o conhecimento prévio dos 20 estudos anteriores se não fosse bayesiano? E se não houvesse um segundo ponto final. O colega acreditaria que um benefício de sobrevivência foi demonstrado, ignorando todo o conhecimento anterior?

— Frank Harrell
fonte

2

Não está claro na referência a 'repetível'. Se houver um único teste, sem o ajuste de multiplicidade necessário, a chance de repetir um resultado com

não é alta.

P = 0.04

$P=0.04$

— Frank Harrell

2

Para responder ao @MJA, acho que existem duas abordagens preferidas: (1) seja bayesiana ou (2) priorize as hipóteses e relate os resultados no contexto, em ordem de prioridade.

— Frank Harrell

3

Não há nada de princípio nisso nem é exato de forma alguma. A desigualdade de Bonferroni é um limite superior apenas para a probabilidade de erro. Por que gastar

igualmente em 5 parâmetros? Por que não fazer uma região elipsoidal em vez de retangular para a região de aceitação? Por que não usar o método de Scheffe ou Tukey? Por que não usar um teste simples composto do tipo ANOVA? Você não alcança o

desejado usando um em igualdade.

α

$\alpha$

α

$\alpha$

— Frank Harrell

2

Você está equivocando duas taxas de erro. Sob o nulo, Bonferroni EXATAMENTE mantém o número esperado de erros por família. Ele fornece um limite superior na probabilidade de "pelo menos um" erro por família (que depende da correlação). Gastar alfa igualmente nos 5 testes é perfeitamente lógico, dado que não há uma razão específica para priorizar os testes de uma maneira diferente. Dado outro contexto, existem razões de princípios para fazer o contrário. Você parece sugerir que é "sem princípios" usar um método matematicamente sólido, simplesmente porque existem métodos alternativos, dados outros contextos, objetivos e suposições.

— Bonferroni

2

@FrankHarrell Suas outras perguntas servem apenas para ilustrar meu argumento. Muitas vezes, existem inúmeras opções de estatística de teste, procedimento de teste etc., mesmo na ausência de multiplicidade. Isso não torna a metodologia "arbitrária" no sentido que você parece estar implicando. Se alguém estiver interessado em um teste completo, faça o mesmo. Se alguém estiver interessado apenas nos testes univariados, faça os testes univariados. Você está sugerindo seriamente que é "arbitrário" selecionar o teste que aborda a questão em que você está interessado e não outra?

— Bonferroni

12

Ele resumiu dizendo que o ajuste de Bonferroni tem, na melhor das hipóteses, aplicações limitadas na pesquisa biomédica e não deve ser usado na avaliação de evidências sobre hipóteses específicas.

A correção de Bonferroni é uma das técnicas de comparações múltiplas mais simples e mais conservadoras. É também uma das mais antigas e foi aprimorada bastante ao longo do tempo. É justo dizer que os ajustes da Bonferroni têm aplicação limitada em quase todas as situações. Há quase certamente uma abordagem melhor. Ou seja, você precisará corrigir várias comparações, mas pode escolher um método que seja menos conservador e mais poderoso.

Menos conservador

Os métodos de comparações múltiplas protegem contra a obtenção de pelo menos um falso positivo em uma família de testes. Se você realizar um teste no nível , estará permitindo uma chance de 5% de obter um falso positivo. Em outras palavras, você rejeita sua hipótese nula erroneamente. Se você executar 10 testes no nível , isso aumentará para = ~ 40% de chance de obter um falso positivo $\alpha$ $\alpha = 0.05$ $1-(1-0.05)^{10}$

Com o método Bonferroni, você usa um na extremidade mais baixa da escala (ie ) para proteger sua família de testes no nível . Em outras palavras, é o mais conservador. Agora, você pode aumentar acima do limite inferior estabelecido por Bonferroni (ou seja, tornar seu teste menos conservador) e ainda proteger sua família de testes no nível . Há muitas maneiras de fazer isso, o método Holm-Bonferroni, por exemplo ou melhor ainda, Taxa de descoberta falsa $\alpha_b$ $\alpha_b = \alpha/n$ $n$ $\alpha$ $\alpha_b$ $\alpha$

Mais poderoso

Um bom ponto levantado no artigo mencionado é que a probabilidade de erros do tipo II também aumenta, de modo que diferenças realmente importantes são consideradas não significativas.

Isto é muito importante. Um teste poderoso é aquele que encontra resultados significativos, se existirem. Ao usar a correção Bonferroni, você acaba com um teste menos poderoso. Como Bonferroni é conservador, é provável que o poder seja consideravelmente reduzido. Novamente, um dos métodos alternativos, por exemplo, Taxa de descoberta falsa, aumentará a potência do teste. Em outras palavras, além de proteger contra falsos positivos, você também melhora sua capacidade de encontrar resultados realmente significativos.

Então, sim, você deve aplicar alguma técnica de correção quando tiver várias comparações. E sim, Bonferroni provavelmente deveria ser evitado em favor de um método menos conservador e mais poderoso

— martino
fonte

Existem várias alternativas - Holm Bonferroni, por exemplo, é simples e fácil de entender. Por que não dar uma chance. Digamos que a sua aplicação esteja na expressão de genes ou proteínas, onde você está testando possivelmente milhares de variáveis em um experimento, então o FDR é normalmente usado.

— martino 17/10

Seu método de calcular a chance de 40% de falso positivo em dez testes tem como premissa que seus testes sejam eventos independentes, mas com dados reais é improvável que seja esse o caso. Eu acho que isso é pelo menos digno de comentário.

— Silverfish

Também estou preocupado que essa resposta pareça combinar os métodos de preservação da taxa de erro familiar com os da taxa de descoberta falsa. Não é uma má idéia para discutir essas duas coisas, mas desde que eles fazem trabalhos diferentes que eu não acho que eles devem ser apresentadas como equivalente

— Silverfish

Mas se eu entendi bem, o FDR (taxas de descoberta falsa) não garante o controle de erros do tipo I em um nível predeterminado? (ver também a minha resposta a esta pergunta)

Mas não é mais transparente e útil relatar todos os valores-p brutos de um artigo, para que os leitores possam julgar por si mesmos sua validade ou escolher qual dentre os vários métodos de ajuste que desejam usar?

— Nakx

5

Thomas Perneger não é estatístico e seu trabalho está cheio de erros. Então, eu não levaria isso muito a sério. Na verdade, tem sido fortemente criticado por outros. Por exemplo, Aickin disse que o artigo de Perneger "consiste quase inteiramente de erros": Aickin, "Existe outro método para o ajuste de testes múltiplos", BMJ. 1999 9 de janeiro; 318 (7176): 127.

Além disso, nenhum dos valores-p na pergunta original é <0,05, mesmo sem o ajuste de multiplicidade. Portanto, provavelmente não importa qual ajuste (se houver) é usado.

— Bonferroni
fonte

4

Obrigado pelo link! Eu adicionei uma referência mais completa. Isso ainda é mais um comentário do que uma resposta e tenho certeza que você tem algo de interessante a acrescentar, ou pelo menos um breve resumo do que Aicken diz. Sem relação com isso: dizer que Perneger não tem experiência em estatística não parece verdadeiro (por qualquer padrão razoável), amável ou útil - você consideraria remover a declaração?

— Scortchi - Restabelece Monica

@ Scortchi eu mudei "não tem experiência em estatística" para "não é estatístico". Aliás, discordo que não é útil distinguir opiniões de especialistas de opiniões de não especialistas.

— Bonferroni

2

Até onde sei, Perneger não é formado em estatística e nunca publicou um artigo em um periódico de estatística. O artigo citado na pergunta é um artigo de opinião no BMJ, chamado por estar completamente errado. Então, qual é a suposta experiência de Perneger que é indiscutível "além de qualquer padrão razoável?" Ser "amável" não deve atrapalhar a verdade.

— Bonferroni

3

Tanto quanto eu posso dizer que ele é um professor em um hospital universitário com mestrado em Bioestatística e um PhD em Epidemiologia que leciona na Medical Statistics & publica análises de ensaios clínicos e estudos observacionais em revistas médicas. Se você deduzir disso "nenhum conhecimento estatístico", acho que seu padrão é mais alto do que você poderia esperar que seus leitores pensassem. (É o que eu deveria ter dito, e não o padrão não era razoável.) De qualquer forma, obrigado por editá-lo!

— Scortchi - Restabelece Monica

5

Talvez seja bom explicar o "raciocínio por trás" de várias correções de testes como a de Bonferroni. Se isso estiver claro, você poderá se julgar se deve aplicá-las ou não.

$\mu$ $H_0: \mu=0$

$H_1: \mu \ne 0$ $H_0: \mu = 0$ $\alpha$

$H_0$ $H_0$

$H_0$ $H_0$ $H_1$

A evidência falsa é uma coisa ruim na ciência porque acreditamos ter adquirido conhecimento verdadeiro sobre o mundo, mas, na verdade, podemos ter tido má sorte com a amostra. Esse tipo de erro deve, consequentemente, ser controlado. Portanto, deve-se colocar um limite superior na probabilidade desse tipo de evidência ou controlar o erro do tipo I. Isso é feito mediante a fixação antecipada de um nível de significância aceitável.

$5\%$ $H_0$ $5\%$ $H_0$ $H_1$ $H_1$

$H_0: \mu_1=0 \& \mu_2=0$ $H_1: \mu1 \ne 0 | \mu_2 \ne 0$ $\alpha=0.05$

$H_0^{(1)}: \mu_1=0$ $H_0^{(1)}: \mu_1 \ne 0$ $H_1^{(2)}: \mu_2=0$ $H_1^{(2)}: \mu_2 \ne 0$ $\alpha=0.05$

$H_0^{(1)}$ $H_0^{(1)}$

$1-(1-0.05)^2=0.0975$ $\alpha$

O fato importante aqui é que os dois testes são baseados em uma amostra e na amostra!

Note que assumimos independência. Se você não pode assumir a independência, pode mostrar, usando a desigualdade de Bonferroni $, que o erro do tipo I pode inflar até 0,1.

Observe que Bonferroni é conservador e que o procedimento passo a passo de Holm se mantém sob as mesmas premissas que para Bonferroni, mas o procedimento de Holm tem mais poder.

Quando as variáveis são discretas, é melhor usar as estatísticas de teste com base no valor-p mínimo e se você estiver pronto para abandonar o controle de erros do tipo I ao fazer um grande número de testes, os procedimentos da Taxa de descoberta falsa podem ser mais poderosos.

EDIT:

Se, por exemplo, (veja o exemplo na resposta de @Frank Harrell)

$H_0^{(1)}: \mu_1=0$ $H_1^{(1)}: \mu_1 \ne 0$

$H_0^{(2)}: \mu_1=0$ $H_1^{(2)}: \mu_2 \ne 0$

$H_0^{(12)}: \mu_1=0 \& \mu_2 = 0$ $H_1^{(12)}: \mu_1 \ne 0 | \mu_2 \ne 0$

$H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

2

Penso que esta pergunta se beneficia de uma resposta como essa, mas sugiro que a redação seja "Então, se fixarmos nosso nível de significância em 5%, estaremos dizendo que estamos prontos para aceitar encontrar evidências falsas (por causa da má sorte com a amostra ) com uma chance de 5% "... Essa é apenas a probabilidade de erro se o nulo for realmente verdadeiro e vale a pena dizer. (É "falso testemunho", um termo comum Estou mais acostumado a ver "falso positivo"?.)

— Silverfish

@Silverfish; Eu reformulei um pouco, você acha que é melhor assim?

1

Eu acho que é melhor - "estatisticamente comprovado" provavelmente se beneficiaria de reformular também, sei que é quantas pessoas interpretam p <0,05 ou o que quer, mas é claro que não é realmente uma prova!

— quer

@ Silverfish: Concordo plenamente que não é uma '' prova '', mas usei o termo por razões didáticas, porque comecei pela analogia à prova por contradição. Acrescentarei esse esclarecimento no início

Sua edição é confusa. "O efeito da quimioterapia" no exemplo de Frank é medido através de duas medidas: taxa de sobrevivência e retração do tumor. Ambos podem ser influenciados pela quimioterapia. A hipótese é obviamente que a quimioterapia funciona. Mas "obras" podem ser quantificadas de duas maneiras diferentes. Esse é o aspecto vago que eu tenho falado no seu novo tópico.

— Ameba diz Reinstate Monica

4

Uma boa discussão sobre a correção de Bonferroni e o tamanho do efeito http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Além disso, vale a pena considerar a correção de Dunn-Sidak e a abordagem de probabilidades combinadas de Fisher como alternativas. Independentemente da abordagem, vale a pena relatar valores-p ajustados e brutos, além do tamanho do efeito, para que o leitor possa ter a liberdade de interpretá-los.

— Katya
fonte

O conselho para apresentar valores-p brutos e ajustados sempre me pareceu sensato, mas geralmente é considerado a norma ou mesmo aceitável?

— Silverfish

3

Por um lado, é extremamente conservador. O método Holm-Bonferroni realiza o que o método Bonferonni realiza (controle da taxa de erros sábios da família), além de ser uniformemente mais poderoso.

— TrynnaDoStat
fonte

Isso significa que eu preciso usar esse método para corrigir meus resultados ou devo aceitá-los, dependendo da minha hipótese.

— goro

Não sei o que você quer dizer com "Eu devo aceitar os resultados dependendo da minha hipótese", mas sim, você deve aplicar algum tipo de correção de teste múltiplo porque, caso contrário, você está inflando muito o erro do tipo 1.

— TrynnaDoStat

O que eu quis dizer com "Eu devo aceitar os resultados dependendo da minha hipótese" é que eu executei minha análise de três maneiras diferentes, incluindo GLM e métodos de permutação. todos os métodos me deram resultados significativos e esses resultados corroboram minha hipótese de que eu deveria ter uma diferença significativa entre os grupos. Quando usei Bonferroni para correção múltipla, todos os meus resultados não foram significativos. É por isso que estou confuso. Esse método não é ideal para a minha análise para que eu possa usar um método diferente ou posso confiar nos meus resultados dependendo dos resultados dos outros métodos sem usar o Bonferroni?

— goro

1

Ok, eu entendo o que você está dizendo. Se você testasse a mesma hipótese de três maneiras diferentes, não aplicaria uma correção de teste múltiplo. A razão é que esses três resultados de teste são presumivelmente altamente dependentes um do outro.

— TrynnaDoStat

3

Deve-se considerar os métodos da "Taxa de descoberta falsa" como uma alternativa menos conservadora para Bonferroni. Vejo

John D. Storey, "A FALSA POSITIVA TAXA DE DESCOBERTA: UMA INTERPRETAÇÃO BAYESIANA EO VALOR q", "The Annals of Statistics 2003, vol. 31, nº 6, 2013-2035.

— John Mark
fonte

3

Eles controlam coisas diferentes. O FDR garante que até 5% (ou seja, seu alfa) seja de falsos positivos, o que é diferente de preservar a taxa de erro familiar (que é o que Bonferroni faz).

— Matt Krause

@ Matt Krause: E se eu entendi bem, o FDR (taxas de descoberta falsa) não garante o controle de erros do tipo I em um nível predeterminado? (ver também a minha resposta a esta pergunta)