Comparação do modelo bayesiano no ensino médio

Ensino física a estudantes do ensino médio e gostaria que meus alunos fizessem uma comparação rudimentar do modelo bayesiano para obter dados de seus experimentos. Eu descobri uma maneira de fazê-lo (veja abaixo), mas não tenho certeza de que esteja correto. Eu gostaria muito de receber algum feedback sobre ele (especialmente feedback negativo!), Ou sugestões sobre como fazê-lo melhor.

Gostaria de comparar uma teoria linear, com parâmetros inclinação e interceptar , a uma hipótese nula de uma encosta ou seja constante = 0. Nos dois casos, assumo o ruído simétrico gaussiano. $a$ $b$ $a$

Os alunos podem derivar, usando o Excel, as estimativas de probabilidade máxima para a inclinação e a interceptação ( e ), e seus erros e . $\hat{a}$ $\hat{b}$ $da$ $db$

Para o anterior na encosta, considero um gaussiano amplo, centrado na estimativa máxima = verossimilhança ( ) e com um desvio padrão de dez vezes isso. Meu raciocínio é que, realisticamente, espero que eles encontrem os parâmetros de linha "corretos" pelo menos dentro de uma magnitude e, na prática, eles encontrarão outros ainda mais próximos; portanto, se eu substituir a inclinação "correta" por seu MLE, não mudarei o números demais. $\hat{a}$
Para a probabilidade da evidência dada a qualquer teoria linear específica, considero a distribuição gaussiana multivariada padrão, com um desvio padrão ( ) relacionado à soma dos resíduos ao quadrado. $\sigma_e$
A probabilidade da evidência para a teoria linear em geral, ou seja, a integral do anterior e da probabilidade acima, é, portanto, estimada como sendo o prior e a probabilidade no ponto MLE, vezes o erro na inclinação . $da$
A probabilidade da evidência dada a hipótese nula é assumida como outra gaussiana multivariada, agora usando o desvio padrão total ( ), com base na diferença da média Y. $\sigma_T$
Esta é a parte da qual tenho menos certeza: estimo o fator Bayes como a razão das duas probabilidades acima (3 e 4 acima), o que me permite apresentar a seguinte fórmula:

$B_{10}=\frac{da}{(10 |\hat{a}| \cdot \sqrt{2 \pi})}(\sigma_T/\sigma_e)^N\cdot \sqrt{e}$

Isso nos daria estimativas razoáveis para o fator Bayes? Qualquer feedback é bem-vindo.

— Professor de física
fonte

Editei sua fórmula usando o MathJax para obter uma aparência mais simplificada e fácil de ler. Sinta-se livre para editá-lo se eu traduzi-lo errado

— Marquês de Carabas

Obrigado! No entanto, os dois últimos termos (a razão se a raiz quadrada de e) devem estar fora da fração ou no numerador.

— PhysicsTeacher

Oh! É como o LaTex! Eu corrigi as fórmulas; obrigado novamente.

— precisa saber é o seguinte

Primeiro, deixe-me dizer que o teste sensível de uma hipótese aguda como requer uma distribuição prévia ponderada para , porque o fator Bayes depende criticamente disso antes. Muitos bayesianos não testam uma hipótese nítida, mas eu testarei. $a=0$ $a$

Antes de prosseguir, devo lhe dizer que realmente não entendo o que você diz que está fazendo e, portanto, posso estar dando conselhos que você não está procurando. Espero que você possa seguir a notação de maio.

Sejam dados observações: , onde (de acordo com o modelo mais geral e inclui a inclinação) (Estou suprimindo a variável independente da lista de argumentos de condicionamento para simplificar a notação.) A probabilidade é dada por Dado um anterior para , a distribuição posterior é onde a probabilidade dos dados de acordo com o modelo mais geral é $n$ $y = ((x_1,y_1), \ldots, (x_n,y_n))$

p (y_{i} | a, b, σ^{2}) = N (y_{i} | b + a x_{i}, σ^{2}) .

$p(y_i|a,b,\sigma^2) = \textsf{N}(y_i|b+a\,x_i,\sigma^2).$

x_{i}

$x_i$

p (y | a, b, σ^{2}) = \prod_{i = 1}^{n} p (y_{i} | a, b, σ^{2}) .

$p(y|a,b,\sigma^2) = \prod_{i=1}^n p(y_i|a,b,\sigma^2).$

(a, b, σ^{2})

$(a,b,\sigma^2)$

p (a, b, σ^{2} | y) = \frac{p (y | a, b, σ^{2}) p (a, b, σ^{2})}{p (y)},

$\begin{equation} p(a,b,\sigma^2|y) = \frac{p(y|a,b,\sigma^2)\,p(a,b,\sigma^2)}{p(y)}, \end{equation}$

\begin{aligned} p (y) & = ∭ p (y | a, b, σ^{2}) p (a, b, σ) d σ^{2} d b d a \\ = \int (\iint p (y | a, b, σ^{2}) p (b, σ^{2}) d σ^{2} d b) p (a | b, σ^{2}) d a \\ = \int p (y | a) p (a | b, σ^{2}) d a, \end{aligned}

$\begin{equation} \begin{split} p(y) &= \iiint p(y|a,b,\sigma^2)\,p(a,b,\sigma)\,d\sigma^2\,db\,da \\ &= \int\left(\iint p(y|a,b,\sigma^2)\,p(b,\sigma^2)\,d\sigma^2\,db\right) p(a|b,\sigma^2)\,da \\ &= \int p(y|a)\,p(a|b,\sigma^2)\,da , \end{split} \end{equation}$ onde usei . Note-se que é a probabilidade (marginal) para e , é a anterior condicional para . Se o anterior para é independente de , então . Eu vou assumir que isso é verdade.

p (a, b, σ^{2}) = p (a | b, σ^{2}) p (b, σ^{2})

$p(a,b,\sigma^2) = p(a|b,\sigma^2)\,p(b,\sigma^2)$

p (y | a)

$p(y|a)$

a

$a$

p (a | b, σ^{2})

$p(a|b,\sigma^2)$

a

$a$

a

$a$

(b, σ^{2})

$(b,\sigma^2)$

p (a | b, σ^{2}) = p (a)

$p(a|b,\sigma^2) = p(a)$

Com essas expressões, agora podemos escrever o marginal posterior para : Vamos reorganizar essa expressão: Como essa expressão é verdadeira para todo valor de , é verdadeira em particular para : Observe que o numerador na fração do lado esquerdo é a probabilidade dos dados de acordo com o modelo restrito (ou seja, restrito a $a$

p (a | y) = \frac{p (y | a) p (a)}{p (y)} .

$\begin{equation} p(a|y) = \frac{p(y|a)\,p(a)}{p(y)}. \end{equation}$

\frac{p (y | a)}{p (y)} = \frac{p (a | y)}{p (a)} .

$\begin{equation} \frac{p(y|a)}{p(y)} = \frac{p(a|y)}{p(a)}. \end{equation}$

a

$a$

a = 0

$a = 0$

\frac{p (y | a = 0)}{p (y)} = \frac{p (a = 0 | y)}{p (a = 0)} .

$\begin{equation} \frac{p(y|a=0)}{p(y)} = \frac{p(a=0|y)}{p(a=0)}. \end{equation}$

a = 0

$a=0$ ) E, como já observado, o denominador é a probabilidade dos dados de acordo com o modelo mais geral. Portanto, o lado esquerdo é o fator Bayes a favor do modelo restrito em relação ao modelo mais geral.

A fração do lado direito nos fornece uma maneira de avaliar o fator Bayes: Diz para dividir a densidade posterior avaliada em pela densidade anterior avaliada em . (A propósito, a "fórmula" é chamada de razão de densidade Savage-Dickey.) Agora é aparente por que é necessário um prévio cuidadoso para . Se deixarmos que a densidade prévia para ser muito incerto, a densidade prévia será muito baixa em todos os lugares, incluindo a , mas a densidade posterior em não vai para zero, e, consequentemente, o fator de Bayes vai para o infinito. Nesse caso, "entrada de lixo" produz "saída de lixo". $a=0$ $a=0$ $a$ $a$ $a =0$ $a=0$

Você pode imaginar que, se não seguir as etapas descritas, não estará sujeito a esse problema, mas estará errado. A lógica que apresentei se aplica independentemente do "algoritmo" que você aplica.

Mas as etapas fornecem um algoritmo que pode ser útil. Suponha que o prior para os parâmetros seja dado pelo "Jeffreys prior" Isso equivale a usar um anterior impróprio nos "parâmetros de incômodo" . Isso é bom, mas como uma prévia não seria apropriado para para a razão que eu discutido acima. Com isso, --- a probabilidade (marginal) de --- será proporcional à distribuição de Student , cujos parâmetros dependem dos dados . Esta distribuição é um resumo completo dos dados, que podem ser descartados. Agora você deve escolher um adequado e bem informado antes de

p (b, σ^{2}) \propto 1 / σ^{2} .

$p(b,\sigma^2) \propto 1/\sigma^2.$

(b, σ^{2})

$(b,\sigma^2)$

a

$a$

p (y | a)

$p(y|a)$

a

$a$

t

$t$

y

$y$

t

$t$

a

$a$ . Feito isso, você pode calcular numericamente em ambos os lados a equação "Savage-Dickey".

Espero que você encontre algo no que eu disse útil.

— mef
fonte

Hmm, aparentemente não posso deixar comentários longos nem editá-los por muito tempo. Vou direto ao ponto: como devo calcular o lado direito? Meu prior é Suponho que, após os dados, Então o fator Bayes é a razão entre os dois em a = 0?

p (a) = \frac{1}{10 | \hat{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 (10 | \hat{a} |^{2}}}

$p(a)=\frac{1}{10 |\hat{a}| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 (10 |\hat{a}|^2}}$

p (a | y) = \frac{1}{σ_{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 σ_{a}^{2}}}

$p(a|y)=\frac{1}{\sigma_a| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 \sigma_a^2}}$

— PhysicsTeacher

Não compreendo o seu anterior, pois parece envolver os dados por meio da estimativa de probabilidade máxima.

— mef

Sim, estamos brincando de fingir aqui (é para o ensino médio!). O real anterior é o mesmo, exceto que o valor fornecido na literatura para a inclinação esperada é usado em vez de . Para fornecer uma fórmula de forma fechada que não dependa do experimento explícito, presumo que, como é um amplo prior e o não esteja longe do valor da literatura, podemos trocá-los sem alterar os números Muito de.

\hat{a}

$\hat{a}$

h a t a

$hat{a}$

— PhysicsTeacher

Não entendo a lógica de suas suposições sobre o anterior. No entanto, a resposta para a pergunta no seu primeiro comentário é "sim". Eu acho que você encontrará o fator Bayes (BF) bastante sensível à sua escolha de variação anterior. Se você mudar de 10 para 20 (por exemplo), suspeito que você receberá uma grande alteração no BF. E esse é o ponto que eu estava tentando fazer.

— mef

Muito obrigado mef! Ainda não entendo se meu cálculo original é razoável, mas pelo menos agora tenho um ponto de comparação. Verificarei a resposta à mudança no fator de 10 para 20 e à troca da literatura vs. .

\hat{a}

$\hat{a}$

— PhysicsTeacher