Qual é a justificativa bayesiana para privilegiar análises conduzidas antes de outras análises?

Antecedentes e exemplo empírico

Eu tenho dois estudos; Fiz um experimento (Estudo 1) e depois o repliquei (Estudo 2). No estudo 1, encontrei uma interação entre duas variáveis; no estudo 2, essa interação foi na mesma direção, mas não significativa. Aqui está o resumo do modelo do Estudo 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 **

E o modelo do Estudo 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545

Em vez de dizer: "Acho que não tenho nada, porque 'falhei em replicar'", o que fiz foi combinar os dois conjuntos de dados, criar uma variável fictícia para qual estudo os dados vieram e depois executar a interação novamente depois de controlar a variável dummy do estudo. Essa interação foi significativa mesmo depois de controlá-la, e eu descobri que essa interação bidirecional entre condição e antipatia / preconceito não era qualificada por uma interação de três vias com a variável dummy do estudo.

Introdução à análise bayesiana

Alguém sugeriu que esta é uma ótima oportunidade para usar a análise bayesiana: No Estudo 2, tenho informações do Estudo 1 que posso usar como informação prévia! Dessa forma, o Estudo 2 está fazendo uma atualização bayesiana a partir dos resultados freqüentes de mínimos quadrados ordinários no Estudo 1. Então, volto a analisar novamente o modelo do Estudo 2, agora usando prévios informativos sobre os coeficientes: Todos os coeficientes tinham um normal anterior, onde a média foi a estimativa no Estudo 1 e o desvio padrão foi o erro padrão no Estudo 1.

Este é um resumo do resultado:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Parece que agora temos evidências bastante sólidas para uma interação da análise do Estudo 2. Isso concorda com o que fiz quando simplesmente empilhei os dados uns sobre os outros e executei o modelo com o número do estudo como uma variável fictícia.

Contrafactual: E se eu fiz o Estudo 2 primeiro?

Isso me fez pensar: e se eu tivesse executado o Estudo 2 primeiro e depois usado os dados do Estudo 1 para atualizar minhas crenças no Estudo 2? Fiz o mesmo que acima, mas ao contrário: re-analisei os dados do Estudo 1 usando as estimativas do coeficiente de mínimos quadrados ordinários e freqüentes e os desvios-padrão do Estudo 2 como médias e desvios-padrão anteriores para a análise dos dados do Estudo 1. Os resultados resumidos foram:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Novamente, vemos evidências de uma interação, no entanto, isso pode não ter sido necessariamente o caso. Observe que a estimativa pontual para as duas análises bayesianas não está nos intervalos de 95% credíveis entre si; os dois intervalos credíveis das análises bayesianas têm mais não sobreposição do que sobreposição.

Qual é a justificativa bayesiana para a precedência do tempo?

Minha pergunta é assim: quais são as justificativas que os bayesianos têm para respeitar a cronologia de como os dados foram coletados e analisados? Eu obtenho resultados do Estudo 1 e os uso como informações preliminares no Estudo 2, para que eu use o Estudo 2 para "atualizar" minhas crenças. Mas se assumirmos que os resultados obtidos são obtidos aleatoriamente de uma distribuição com um verdadeiro efeito populacional ... então por que privilegio os resultados do Estudo 1? Qual é a justificativa para usar os resultados do Estudo 1 como anteriores para o Estudo 2 em vez de considerar os resultados do Estudo 2 como anteriores para o Estudo 1? A ordem em que eu coletei e calculei as análises realmente importa? Não parece que deveria para mim - qual é a justificação bayesiana para isso? Por que eu deveria acreditar que a estimativa pontual está mais próxima de 0,34 do que 0,17 só porque eu executei o Estudo 1 primeiro?

Respondendo à resposta do Kodiologist

Kodiologist observou:

O segundo desses pontos aponta para uma importante partida que você fez da convenção bayesiana. Você não definiu um primeiro antes e depois ajustou os dois modelos da maneira bayesiana. Você ajusta um modelo de maneira não bayesiana e, em seguida, usa-o para anteriores do outro modelo. Se você usasse a abordagem convencional, não veria a dependência da ordem que viu aqui.

Para resolver isso, ajustei os modelos para o Estudo 1 e o Estudo 2, em que todos os coeficientes de regressão tinham um antes de . A variável foi dummy para condição experimental, codificada 0 ou 1; a variável, assim como o resultado, foram medidos em escalas de 7 pontos, variando de 1 a 7. Portanto, acho que é uma escolha justa do anterior. Assim como os dados são dimensionados, seria muito, muito raro ver coeficientes muito maiores do que o sugerido anteriormente. $\text{N}(0, 5)$ condprej

As estimativas médias e o desvio padrão dessas estimativas são praticamente as mesmas da regressão OLS. Estudo 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

E estude 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Como essas médias e desvios padrão são mais ou menos os mesmos que as estimativas do OLS, o efeito de ordem acima ainda ocorre. Se eu inserir as estatísticas de resumo posteriores do Estudo 1 nos anteriores ao analisar o Estudo 2, observarei um posterior final diferente do que ao analisar o Estudo 2 primeiro e depois utilizarei essas estatísticas de resumo posteriores como anteriores para analisar o Estudo 1.

Mesmo quando uso as médias bayesianas e os desvios padrão para os coeficientes de regressão como anteriores, em vez das estimativas freqüentistas, ainda observava o mesmo efeito de ordem. Portanto, permanece a pergunta: qual é a justificativa bayesiana para privilegiar o estudo que veio primeiro?

bayesian

— Mark White
fonte

"Eu ainda estaria na mesma situação. Portanto, a pergunta permanece: qual é a justificativa bayesiana para privilegiar o estudo que veio primeiro?" - Hã? Em que sentido você ainda está privilegiando o Estudo 1? Você pode ajustar os dois modelos conforme descrito aqui ou na ordem oposta e sua estimativa final de, por exemplo, o verdadeiro coeficiente populacional prejdeve ser a mesma, de qualquer maneira, a menos que eu esteja entendendo mal o seu procedimento.

— Kodiologist

@ Kodiologist editei para maior clareza, incluindo mais sobre o procedimento.

— Mark White

E a matriz de covariância e o erro? Você tem que usar toda a articulação posterior como seu novo prior.

— Scortchi - Restabelecer Monica

@ Scortchi bingo - acho que é a resposta correta, e foi nisso que a resposta da unutbu me levou a acreditar. O que fiz foi uma versão realmente grosseira da atualização: tirei estatísticas resumidas, não toda a articulação posterior. Isso implica a pergunta: existe uma maneira de incluir toda a articulação posterior como prévia em rstanarmStan? Parece que essa pergunta já foi feita aqui antes: stats.stackexchange.com/questions/241690/…

— Mark White

Se você está começando com os anteriores gaussianos (& independência?) Para os coeficientes e uma gama inversa para a variação, então você tem uma gama gama inversa normal e é conjugada. Procure as equações de atualização.

— Scortchi - Restabelecer Monica

Respostas:

O teorema de Bayes diz que posterioré igual a prior * likelihoodapós o reescalonamento (então a probabilidade é igual a 1). Cada observação possui um likelihoodque pode ser usado para atualizar priore criar um novo posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

De modo a

posterior_n = prior * likelihood_1 * ... * likelihood_n

A comutatividade da multiplicação implica que as atualizações podem ser feitas em qualquer ordem . Portanto, se você começar com um único anterior, poderá misturar as observações dos Estudos 1 e 2 em qualquer ordem, aplicar a fórmula de Bayes e chegar à mesma final posterior.

— unutbu
fonte

Faz todo o sentido. Portanto, isso aponta para uma possível razão para a discrepância: a maneira como fiz minhas análises (conecte as estatísticas sumárias posteriores aos argumentos anteriores para o próximo estudo) não é como a atualização funciona? Ou seja: eu preciso considerar a totalidade do posterior, não apenas inserindo estatísticas resumidas dele nos anteriores das análises subsequentes. Corrigir?

— Mark28

@MarkWhite Correct. As distribuições posteriores de sua primeira análise devem ser suas anteriores para a segunda.

— Kodiologist

@Kodiologist e resumo de estatísticas sobre a parte posterior! = A parte posterior #

— Mark White

@MarkWhite Right.

— Kodiologist

Primeiro, devo salientar que:

Na sua abordagem de teste de significância, você seguiu um resultado negativo com um modelo diferente que lhe deu outra chance de obter um resultado positivo. Essa estratégia aumenta a taxa de erro tipo I do projeto. O teste de significância requer a escolha antecipada da sua estratégia analítica para que os valores- estejam corretos. $p$
Você está confiando bastante nos resultados do Estudo 1, traduzindo suas descobertas dessa amostra de maneira tão direta em anteriores. Lembre-se, um prior não é apenas um reflexo de descobertas passadas. Ele precisa codificar a totalidade de suas crenças preexistentes, incluindo suas crenças antes das descobertas anteriores. Se você admitir que o Estudo 1 envolveu erro de amostragem, bem como outros tipos de incerteza menos tratável, como a incerteza do modelo, você deve usar um anterior mais conservador.

O segundo desses pontos aponta para uma importante partida que você fez da convenção bayesiana. Você não definiu um primeiro antes e depois ajustou os dois modelos da maneira bayesiana. Você ajusta um modelo de maneira não bayesiana e, em seguida, usa-o para anteriores do outro modelo. Se você usasse a abordagem convencional, não veria a dependência da ordem que viu aqui.

— Kodiologist
fonte

1. Como acompanhei um resultado negativo com um modelo diferente? O que você quer dizer com "resultado negativo"? No que diz respeito à taxa de erro do tipo I em todo o estudo, esses são dois estudos separados, realizados com semanas de intervalo entre si. De qualquer maneira, acredito em fazer uma análise exploratória dos dados, por isso nunca acho que os valores p na prática sejam "corretos" ou que devemos esperar que sejam "totalmente corretos". Se as pessoas fizessem apenas os testes que pensavam anteriormente, perderíamos muitas descobertas excelentes que aconteceram por acidente - e estaríamos desperdiçando toneladas de dados.

— Mark White

p

$p$

2. Sim, mas você terminaria com diferentes prévios para o Estudo 2, que não deram tanta credibilidade à idéia de que o Estudo 1 era preciso.

— Kodiologist

1. O problema não é que você coletou mais dados e os analisou, mas analisou novamente os dados dos dois estudos (com um modelo unificado com um novo preditor) porque obteve resultados negativos na primeira vez em que analisou o segundo conjunto de dados. Nunca vi razão para acreditar que o teste de significância seja realmente útil, mas a maioria dos que acreditam que parece pensar que todos os teoremas sobre teste de significância são os que sustentam sua utilidade, e os teoremas, como todos os teoremas, exigem certas premissas para tirar suas conclusões.

— Kodiologist

@ Kodiologist - Se você não acha que o teste de significância é útil, em que base você suspeita (por exemplo) do pesquisador que conclui que a maioria das pessoas provavelmente tem olhos azuis porque todos na amostra dos dois o fizeram?

— Obie 2,0

Eu pensei que poderia fazer uma série de gráficos com um problema diferente, mas estilizado, para mostrar por que pode ser perigoso passar dos métodos freqüentista para bayesiano e por que usar estatísticas resumidas pode criar problemas.

Em vez de usar o seu exemplo, que é multidimensional, vou reduzi-lo a uma dimensão com dois estudos cujo tamanho é três observações e três observações.

\frac{1}{π} \frac{1}{1 + (x - θ)^{2}} .

$\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}.$

Estou usando porque o teorema do limite central não se aplica, falta estatísticas suficientes, observações extremas são comuns, a desigualdade de Chebychev não se sustenta e uma série de soluções normalmente viáveis se desfazem. Estou usando, porque é um ótimo exemplo, sem ter que colocar muito trabalho no problema.

$\{-5,-1,4\}$ $\{-1.5,-1,-.5\}$ $\pm{669}\sigma$ $\pm{3}\sigma$

As densidades posteriores dos dois estudos separados são

Como é visualmente óbvio, obter estatísticas resumidas da amostra um pode ser incrivelmente enganador. Se você está acostumado a ver densidades agradáveis, unimodais, bem definidas e nomeadas, isso pode sair rapidamente com ferramentas Bayesianas. Não existe uma distribuição nomeada como essa, mas você certamente poderia descrevê-la com estatísticas resumidas se não a visse visualmente. Usar uma estatística resumida pode ser um problema se você for usá-la para criar um novo anterior.

A distribuição de confiança Frequentist para ambas as amostras é a mesma. Como a escala é conhecida, o único parâmetro desconhecido é a mediana. Para um tamanho de amostra de três, a mediana é o MVUE. Enquanto a distribuição de Cauchy não tem média ou variância, a distribuição amostral da mediana sim. É menos eficiente que o estimador de probabilidade máxima, mas não preciso de nenhum esforço para calcular. Para amostras grandes, o método de Rothenberg é o MVUE e também existem soluções de tamanho médio.

Para a distribuição Frequentist, você obtém

$\Pr(x|\theta)$ $\Pr(\theta|x)$

A distribuição Frequentist pressupõe uma repetição infinita do tamanho da amostra três vezes e mostra a distribuição limitadora da distribuição das medianas da amostra. A distribuição bayesiana é dada portanto depende apenas da amostra observada e ignora as boas ou más propriedades que essa amostra possa ter. De fato, a amostra é incomum para os métodos bayesianos e, portanto, pode ser dada uma pausa para formar uma forte inferência sobre isso. É por isso que o posterior é tão largo, a amostra é incomum. O método Frequentist está controlando amostras incomuns, enquanto o Bayesiano não. Isso cria o caso perverso em que a certeza adicional do parâmetro de escala restringe a solução Frequentist, mas amplia o Bayesiano. $x$

A articulação posterior é o produto das duas posteriores e por associatividade da multiplicação, não importa qual ordem você use. Visualmente, a articulação posterior é .

É óbvio que, se você impusesse alguma distribuição simplificada nas partes posteriores e usasse as estatísticas resumidas, provavelmente obteria uma resposta diferente. De fato, poderia ter sido uma resposta muito diferente. Se uma região com credibilidade de 70% fosse usada no primeiro estudo, isso resultaria em uma região credível desconectada. A existência de intervalos desconectados acontece às vezes nos métodos bayesianos. O gráfico do maior intervalo de densidade e do menor intervalo de densidade do primeiro estudo é

Você notará que o HDR está quebrado por uma faixa de uma região que está fora do conjunto credível.

Embora muitos desses problemas geralmente desapareçam em grandes conjuntos com regressão, deixe-me dar um exemplo de uma diferença natural de como os métodos Bayesiano e Frequentista lidam com variáveis ausentes de maneira diferente na regressão.

Considere uma regressão bem construída com uma variável ausente, o clima. Vamos supor que os clientes se comportem de maneira diferente em dias chuvosos e ensolarados. Se essa diferença é suficiente, pode haver facilmente dois modos posteriores bayesianos. Um modo reflete o comportamento ensolarado, o outro, chuvoso. Você não sabe por que você tem dois modos. Pode ser uma execução estatística ou um ponto de dados ausente, mas sua amostra é incomum ou seu modelo tem uma variável omitida.

A solução Frequentist faria a média dos dois estados e pode colocar a linha de regressão em uma região onde não ocorre realmente nenhum comportamento do cliente, mas que calcula a média dos dois tipos de comportamento. Também será tendencioso para baixo. Os problemas podem ser detectados na análise de resíduos, principalmente se houver uma grande diferença nas variações reais, mas talvez não. Pode ser uma daquelas imagens estranhas de resíduos que aparecerão na validação cruzada de tempos em tempos.

O fato de você ter duas partes posteriores diferentes dos mesmos dados implica que você não multiplicou as duas diretamente. Ou você criou um posterior a partir de uma solução Frequentist que não mapeou um a um com o posterior Bayesiano ou criou um anterior a partir das estatísticas resumidas e a função de probabilidade não era perfeitamente simétrica, o que é comum.

— Dave Harris
fonte