Eu li algumas explicações do algoritmo EM (por exemplo, do reconhecimento de padrões e aprendizado de máquina de Bishop e do primeiro curso de Roger e Gerolami sobre aprendizado de máquina). A derivação do EM está bem, eu entendo. Também entendo por que o algoritmo cobre algo: em cada etapa, melhoramos o resultado e a probabilidade é limitada por 1,0; portanto, usando um fato simples (se uma função aumenta e é limitada, converge), sabemos que o algoritmo converge para alguma solução.
No entanto, como sabemos que é um mínimo local? Em cada etapa, estamos considerando apenas uma coordenada (variável latente ou parâmetros), para que possamos perder alguma coisa, como se o mínimo local exigisse o movimento de ambas as coordenadas ao mesmo tempo.
Acredito que esse seja um problema semelhante ao da classe geral de algoritmos de escalada, da qual EM é uma instância. Portanto, para um algoritmo geral de escalada em montanhas, temos esse problema para a função f (x, y) = x * y. Se começarmos do ponto (0, 0), somente considerando as duas direções ao mesmo tempo, poderemos subir do valor 0.