Por que o algoritmo de maximização de expectativa é usado?

22

Pelo pouco que sei, o algoritmo EM pode ser usado para encontrar a máxima probabilidade ao zerar as derivadas parciais em relação aos parâmetros da probabilidade, fornecendo um conjunto de equações que não podem ser resolvidas analiticamente. Mas é necessário o algoritmo EM, em vez de usar alguma técnica numérica, para tentar encontrar o máximo de probabilidade com relação à restrição do conjunto de equações mencionado.

expectation-maximization

— user782220
fonte

20

A pergunta é legítima e eu tive a mesma confusão quando aprendi o algoritmo EM.

Em termos gerais, o algoritmo EM define um processo iterativo que permite maximizar a função de probabilidade de um modelo paramétrico no caso em que algumas variáveis do modelo são (ou são tratadas como) "latentes" ou desconhecidas.

Em teoria, com o mesmo objetivo, você pode usar um algoritmo de minimização para encontrar numericamente o máximo da função de probabilidade para todos os parâmetros. No entanto, em situação real, essa minimização seria:

muito mais computacionalmente intensivo
menos robusto

Uma aplicação muito comum do método EM é a montagem de um modelo de mistura. Nesse caso, considerando a variável que atribui cada amostra a um componente como variáveis "latentes", o problema é bastante simplificado.

Vamos ver um exemplo. Temos N amostras extraídas de uma mistura de 2 distribuições normais. Para encontrar os parâmetros sem EM, devemos minimizar: $s = \{s_i\}$

- registro eu (x, θ) = - registro [{uma}_{1} \exp (\frac{(x - μ_{1})^{2}}{2 σ_{1}^{2}}) + {uma}_{2} \exp (\frac{(x - μ_{2})^{2}}{2 σ_{2}^{2}})]

$-\log \mathcal{L}(x,\theta) = -\log\Big[ a_1 \exp\Big( \frac{(x-\mu_1)^2}{2\sigma_1^2}\Big) + a_2 \exp\Big(\frac{(x-\mu_2)^2}{2\sigma_2^2}\Big) \Big]$

Pelo contrário, usando o algoritmo EM, primeiro "atribuímos" cada amostra a um componente ( etapa E ) e depois ajustamos (ou maximizamos a probabilidade de) cada componente separadamente ( etapa M ). Neste exemplo, a etapa M é simplesmente uma média ponderada para encontrar e . A iteração nessas duas etapas é uma maneira mais simples e robusta de minimizar . $\mu_k$ $\sigma_k$ $-\log \mathcal{L}(x,\theta)$

— user2304916
fonte

12

O EM não é necessário em vez de usar alguma técnica numérica porque o EM também é um método numérico. Portanto, não é um substituto para Newton-Raphson. EM é para o caso específico em que faltam valores em sua matriz de dados. Considere-se uma amostra que tem densidade condicional . Então a probabilidade logarítmica disso é $X = (X_{1},...,X_{n})$ $f_{X|\Theta}(x|\theta)$ Agora, suponha que você não tenha um conjunto de dados completo, de modo que seja composto pelos dados observados epelasvariáveis ausentes (ou latentes) , de modo que . Então a probabilidade logarítmica para os dados observados é

eu (θ; X) = eu o g f_{X | Θ} (X | θ)

$l(\theta;X) = log f_{X|\Theta}(X|\theta)$

X

$X$

Y

$Y$

Z

$Z$

X = (Y, Z)

$X=(Y,Z)$

Em geral, você não pode calcular esta integral diretamente e não obterá uma solução em forma fechada para

. Para esse fim, você usa o método EM. Existem duas etapas que são iteradas por

vezes. Nestaetapa

estas são as etapas de expectativa em que você calcula

{eu}_{o b s} (θ, Y) = eu o g \int f_{X | Θ} (Y, z | θ) ν_{z} (d z)

$l_{obs}(\theta,Y)=log \int f_{X|\Theta}(Y,z|\theta)\nu_{z}(dz)$

l_{o b s} (θ, Y)

$l_{obs}(\theta,Y)$

i

$i$

(i + 1)^{t h}

$(i + 1)^{th}$

onde

é a estimativa de

nopasso

. Em seguida, calcule a etapa de maximização na qual você maximiza

em relação a

e define

Q (θ | θ^{(Eu)}) = E_{θ^{(Eu)}} [eu (θ; X | Y]

$Q(\theta|\theta^{(i)}) = E_{\theta^{(i)}}[l(\theta;X|Y]$

θ^{(i)}

$\theta^{(i)}$

Θ

$\Theta$

i^{t h}

$i^{th}$

Q (θ | θ^{(i)})

$Q(\theta|\theta^{(i)})$

θ

$\theta$

θ^{(i + 1)} = m a x Q (θ | θ^{i})

$\theta^{(i+1)} = max Q(\theta|\theta^{i})$ . Você repete essas etapas até o método convergir para algum valor que será sua estimativa.

Se você precisar de mais informações sobre o método, suas propriedades, provas ou aplicativos, consulte o artigo correspondente na Wiki .

— Andy
fonte

1

+1 ... EM não é apenas para o caso de valores ausentes.

— Glen_b -Reinstala Monica

@ Andy: Mesmo considerando o caso de dados ausentes, ainda não entendo por que usar métodos numéricos genéricos para encontrar um ponto em que as derivadas parciais são zero não funciona.

— user782220

Graças Glen, eu só sabia no contexto de valores ausentes / variáveis latentes. @ user782220: quando você não puder ter uma solução de formulário fechado da derivada de probabilidade de log, definir a derivada igual a zero não identificará seu parâmetro. É por isso que você usa métodos numéricos neste caso. Para uma explicação e um exemplo, veja a palestra aqui: people.stat.sfu.ca/~raltman/stat402/402L5.pdf

— Andy

1

O EM é usado porque geralmente é inviável ou impossível calcular diretamente os parâmetros de um modelo que maximiza a probabilidade de um conjunto de dados, dado esse modelo.

— TheGrimmScientist
fonte