Respostas:
A partir de:
Xu L e Jordan MI (1996). Sobre propriedades de convergência do algoritmo EM para misturas gaussianas . Computação Neural 2: 129-151.
Abstrato:
Mostramos que a etapa EM no espaço do parâmetro é obtida a partir do gradiente por meio de uma matriz de projeção P, e fornecemos uma expressão explícita para a matriz.
Página 2
Em particular, mostramos que o passo EM pode ser obtido pré-multiplicando o gradiente por uma matriz de denite positiva. Fornecemos uma expressão explícita para a matriz ...
Page 3
Ou seja, o algoritmo EM pode ser visto como um algoritmo de subida de gradiente métrico variável ...
Isto é, o artigo fornece transformações explícitas do algoritmo EM em gradiente-ascensão, Newton, quase-Newton.
Da wikipedia
Existem outros métodos para encontrar estimativas de máxima verossimilhança, como descida do gradiente, gradiente conjugado ou variações do método de Gauss-Newton. Diferentemente do EM, esses métodos normalmente requerem a avaliação de primeira e / ou segunda derivada da função de probabilidade.
Não, eles não são equivalentes. Em particular, a convergência EM é muito mais lenta.
Se você estiver interessado em um ponto de vista de otimização no EM, neste artigo, você verá que o algoritmo EM é um caso especial de uma classe mais ampla de algoritmos (algoritmos de ponto proximal).