O artigo que achei esclarecedor no que diz respeito à maximização de expectativas é o K-Means Bayesiano como um algoritmo de "maximização-expectativa" (pdf) de Welling e Kurihara.
Suponha que tenhamos um modelo probabilístico com observações, variáveis aleatórias ocultas e um total de parâmetros. Recebemos um conjunto de dados e somos forçados (por potências mais altas) a estabelecer .x z θ D p ( z , θ | D )p ( x , z, θ )xzθDp ( z, θ | D )
1. Amostra de Gibbs
Podemos aproximar por amostragem. A amostragem de Gibbs fornece alternando:p ( z , θ | D )p ( z, θ | D )p ( z, θ | D )
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Bayes Variacionais
Em vez disso, podemos tentar estabelecer uma distribuição e e minimizar a diferença com a distribuição que buscamos após . A diferença entre distribuições tem um nome conveniente, a KL-divergência. Para minimizar , atualizamos:q ( z ) p ( θ , z | D ) K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ]q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Maximização de Expectativas
Apresentar distribuições de probabilidade completas para e pode ser considerado extremo. Por que não consideramos uma estimativa pontual para uma delas e mantemos a outra agradável e diferenciada. Em EM, o parâmetro é estabelecido como indigno de uma distribuição completa e definido como seu valor MAP (Máximo A Posteriori), .θ θ θ ∗zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Aqui seria realmente uma notação melhor: o operador argmax pode retornar vários valores. Mas não vamos escolher. Comparado com Bayes variacionais, você vê que a correção do por não altera o resultado, portanto, isso não é mais necessário.log expθ∗∈argmaxlogexp
4. Maximização-Expectativa
Não há razão para tratar como uma criança mimada. Também podemos usar estimativas pontuais para nossas variáveis ocultas e dar aos parâmetros o luxo de uma distribuição completa.z ∗ θzz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Se nossas variáveis ocultas são variáveis indicadoras, de repente temos um método computacionalmente barato para realizar inferência no número de clusters. Isto é, em outras palavras: seleção de modelo (ou detecção automática de relevância ou imagine outro nome sofisticado).z
5. Modos condicionais iterados
Obviamente, o filho-poster da inferência aproximada é usar estimativas pontuais para os parâmetros e para as observações .zθz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Para ver como a Maximização-Expectativa se desenrola, recomendo o artigo. Na minha opinião, a força deste artigo não é, contudo, a aplicação a uma alternativa significa, mas essa exposição lúcida e concisa da aproximação.k