Por que os métodos bayesianos não exigem várias correções de teste?


22

Andrew Gelman escreveu um extenso artigo sobre o motivo pelo qual o teste Bayesiano AB não exige correção de múltiplas hipóteses: Por que geralmente não precisamos nos preocupar com comparações múltiplas , 2012.

Não entendo bem: por que os métodos bayesianos não exigem várias correções de teste?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Meu entendimento é que a abordagem bayesiana mostrada acima explica a distribuição subjacente compartilhada por todas as hipóteses (ao contrário de uma correção freqüentista de Bonferroni). Meu raciocínio está correto?



5
Embora os links de Patrick sejam muito úteis, seria ótimo ver uma resposta mais autônoma voltada para o 'revisor científico moderadamente estatisticamente alfabetizado'.
conjectures

Respostas:


14

Uma maneira estranha de responder à pergunta é notar que o método bayesiano não oferece nenhuma maneira de fazer isso, porque os métodos bayesianos são consistentes com as regras de evidência aceitas e os métodos freqüentistas frequentemente estão em desacordo com eles. Exemplos:

  • Com estatísticas freqüentes, a comparação do tratamento A a B deve penalizar a comparação dos tratamentos C e D devido a considerações de erro tipo I familiar; com o bayesiano, a comparação AB é independente.
  • Para testes freqüentes sequenciais, geralmente são necessárias multas por várias visualizações dos dados. Em uma configuração seqüencial de grupo, uma comparação antecipada de A vs B deve ser penalizada por uma comparação posterior que ainda não foi feita, e uma comparação posterior deve ser penalizada por uma comparação anterior, mesmo que a comparação anterior não altere o curso da estude.

O problema decorre da reversão do fluxo de tempo e informações pelos freqüentadores, fazendo com que os freqüentadores tenham que considerar o que poderia ter acontecido em vez do que aconteceu . Por outro lado, as avaliações bayesianas ancoram todas as avaliações na distribuição anterior, que calibra as evidências. Por exemplo, a distribuição anterior da diferença AB calibra todas as avaliações futuras da AB e não precisa considerar o CD.

Com o teste seqüencial, há uma grande confusão sobre como ajustar as estimativas pontuais quando um experimento é encerrado precocemente usando inferência freqüente. No mundo bayesiano, o anterior "recua" em qualquer estimativa pontual, e a distribuição posterior atualizada se aplica à inferência a qualquer momento e não requer considerações complexas sobre o espaço da amostra.


4
Eu realmente não entendo esse argumento. Se realizarmos 1000 comparações diferentes com uma abordagem freqüentista usual, é claro que devemos esperar cerca de 50 significantes, com efeitos p <0,05, mesmo sob o nulo. Daí as correções. Se usarmos a estimativa / teste Bayesiano, tendo algum anterior (em torno de 0?) Para todas as comparações, sim, o anterior encolherá os posteriores em direção a zero, mas ainda teríamos posteriores e / ou fatores Bayes variáveis ​​aleatoriamente variáveis ​​e provavelmente terá alguns casos em 1000 que se parecerão com efeitos "substanciais", mesmo quando os efeitos reais forem zero.
Ameba diz Reinstate Monica

1
@amoeba - uma maneira de considerar isso é que o bayesiano leva em consideração todas as alternativas - não apenas "null" vs "uma alternativa". Considerando todos os meios alternativos, geralmente cada um tem menor probabilidade anterior - penalizando efetivamente a inferência. Você deve considerar todas as combinações de verdadeiro / falso (supondo que você não tenha conhecimento prévio de combinações impossíveis). Você está preocupado com algo dando errado em * apenas um caso *. E os outros casos? 2 1000 - 12100021000-1
probabilityislogic

1
Desculpe, @probabilityislogic, não tenho certeza se entendi seu ponto de vista. Justo o suficiente sobre "todas as alternativas", mas o que acontece na prática? Como eu disse, estamos estimando 1000 diferenças de grupo (por exemplo); nós temos uma diferença prévia de grupo; obtemos 1000 posteriores, intervalos de 95% credíveis ou qualquer outra coisa. Em seguida, analisamos cada intervalo confiável para verificar se está longe o suficiente de zero para ser um efeito "significativo / substancial". Se fizermos isso 1000 vezes, é provável que tenhamos alguns "falsos positivos", no sentido de que alguns efeitos parecerão grandes, mesmo que todos os 1000 efeitos sejam de fato iguais a zero. Não?
Ameba diz Reinstate Monica

1
@amoeba - seu argumento depende que esses intervalos / rejeições sejam independentes. Na prática, as pessoas geralmente não testam um grande número de hipóteses não relacionadas. Daí o modelo multinível - para capturar as influências comuns. Isso fará com que esses intervalos confiáveis ​​se movam juntos (ou seja, eles terão distribuições de amostras correlacionadas). Isso levará a mais falsos positivos quando modelos ruins são usados ​​e menos quando bons modelos são usados. Obviamente, bom ou ruim é em termos de ter informações suficientes incorporadas aos modelos. 1000
probabilityislogic

1
@probabilityislogic: Bem, sou absolutamente a favor de modelos multiníveis, mesmo que não os veja necessariamente como uma ferramenta bayesiana - modelos mistos e ANOVAs com efeitos aleatórios são comumente usados ​​juntamente com testes t e outros ...
amoeba diz Restabelecer Monica

6

Esse tipo de modelo hierárquico reduz as estimativas e reduz o número de afirmações falsas em uma extensão razoável para um número pequeno a moderado de hipóteses. Isso garante alguma taxa de erro específica do tipo I? Não.

Essa sugestão específica de Gelman (que reconhece o problema de olhar para muitas coisas diferentes e depois concluir com muita facilidade e erroneamente que você vê algo para algumas delas - na verdade, um de seus tópicos favoritos em seu blog) é distinta da alternativa extrema ponto de vista que sustenta que os métodos bayesianos não precisam explicar a multiplicidade, porque tudo o que importa é a sua probabilidade (e a sua anterior).


1
(+1) Para meu conhecimento em esperar em alguns casos (por exemplo, unidimensional com correspondência anterior), a inferência bayesiana não oferece nenhum controle sobre a taxa de erro do tipo 1. Portanto, a correção de múltiplos testes na configuração bayesiana não pode ser considerada como uma correção para o erro tipo 1.
24516 peuhp


6

Pergunta muito interessante, aqui está minha opinião.

É tudo sobre codificação de informações e, em seguida, gire a manivela bayesiana. Parece bom demais para ser verdade - mas ambos são mais difíceis do que parecem.

Eu começo com a pergunta

Quais informações estão sendo usadas quando nos preocupamos com várias comparações?

Eu posso pensar em alguns - o primeiro é "dragagem de dados" - teste "tudo" até que você obtenha aprovação / reprovação suficientes (eu acho que quase todas as pessoas treinadas em estatísticas estariam expostas a esse problema). Você também tem menos sinistro, mas essencialmente o mesmo "Eu tenho tantos testes para executar - certamente nem todos podem estar corretos".

Depois de pensar sobre isso, noto que você não costuma ouvir muito sobre hipóteses ou comparações específicas. É tudo sobre a "coleção" - isso desencadeia meu pensamento em relação à permutabilidade - as hipóteses comparadas são "semelhantes" umas às outras de alguma maneira. E como você codifica a permutabilidade na análise bayesiana? - hiperpriores, modelos mistos, efeitos aleatórios, etc !!!

Mas a permutabilidade apenas leva você a parte do caminho até lá. Tudo é intercambiável? Ou você tem "esparsidade" - como apenas alguns coeficientes de regressão diferentes de zero com um grande número de candidatos. Modelos mistos e efeitos aleatórios normalmente distribuídos não funcionam aqui. Eles ficam "presos" entre o ruído achatado e deixam os sinais intocados (por exemplo, no exemplo, mantenha os parâmetros locationB e locationC "true" iguais e defina o parâmetro locationA "true" arbitrariamente grande ou pequeno, e observe o modelo misto linear padrão falhar.) . Mas pode ser consertado - por exemplo, com anteriores de "espigão e laje" ou anteriores de "ferradura".

Portanto, trata-se realmente de descrever de que tipo de hipótese você está falando e de obter tantos recursos conhecidos refletidos na probabilidade e antes. A abordagem de Andrew Gelman é apenas uma maneira de lidar implicitamente com uma ampla classe de múltiplas comparações. Assim como os mínimos quadrados e as distribuições normais tendem a funcionar bem na maioria dos casos (mas não em todos).

Em termos de como isso ocorre, você pode pensar em uma pessoa que raciocina da seguinte maneira - o grupo A e o grupo B podem ter a mesma média - observei os dados e os meios estão "próximos" - Portanto, para obter uma estimativa melhor para ambos, devo reunir os dados, pois meu pensamento inicial era que eles tivessem a mesma média. - Se eles não são os mesmos, os dados fornecem evidências de que estão "próximos", portanto, agrupar "um pouco" não vai me machucar muito se minha hipótese estiver errada (a la todos os modelos estão errados, alguns são úteis)

Observe que todas as anteriores dependem da premissa inicial "elas podem ser as mesmas". Tire isso, e não há justificativa para o pool. Você provavelmente também pode ver uma maneira de "distribuição normal" de pensar sobre os testes. "Zero é mais provável", "se não for zero, então próximo de zero é o próximo mais provável", "valores extremos são improváveis". Considere esta alternativa:

  • as médias do grupo A e do grupo B podem ser iguais, mas também podem ser drasticamente diferentes

Então, a discussão sobre agrupar "um pouco" é uma péssima idéia. É melhor escolher pool total ou pool zero. Muito mais parecido com um Cauchy, espigão e laje, tipo de situação (muita massa em torno de zero e muita massa por valores extremos)

As comparações múltiplas inteiras não precisam ser tratadas, porque a abordagem bayesiana está incorporando as informações que nos levam a nos preocupar com a anterior e / ou com a probabilidade . Em certo sentido, é mais um lembrete para pensar adequadamente sobre quais informações estão disponíveis para você e garantir que você as incluiu em sua análise.


2
eu1exp(-|x|)

@StasK - l1 funcionaria melhor, mas, como é log-côncavo, lutaria com esparsos não zeros. Os que eu mencionei são todos log-convexos. Uma variante perto de L1 é generalizado dupla pareto - obter tomando uma mistura de parâmetro de escala de Laplace (semelhante ao laço adaptativa em ML falar)
probabilityislogic

5

Primeiro, como eu entendo o modelo que você apresentou, acho que é um pouco diferente da proposta de Gelman, que se parece mais com:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

Na prática, adicionando esse commonLocationparâmetro, as inferências sobre os parâmetros das 3 distribuições (aqui locais 1, 2 e 3) não são mais independentes uma da outra. Além disso, commonLocationtende a encolher os valores esperados dos parâmetros em direção a um valor central (geralmente estimado). Em certo sentido, ele funciona como uma regularização de todas as inferências, tornando desnecessária a necessidade de correção para correção múltipla (como na prática, realizamos uma única contabilidade de estimativa multivariada a partir da interação entre cada uma delas através do uso de modelo).

Como apontado pela outra resposta, essa correção não oferece nenhum controle sobre o erro do tipo I, mas na maioria dos casos, o método bayesiano não oferece esse controle, mesmo na escala de inferência única, e a correção para comparação múltipla deve ser pensada diferentemente no padrão bayesiano. configuração.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.