Por que o algoritmo Expectation Maximization é garantido para convergir para um ótimo local?


24

Eu li algumas explicações do algoritmo EM (por exemplo, do reconhecimento de padrões e aprendizado de máquina de Bishop e do primeiro curso de Roger e Gerolami sobre aprendizado de máquina). A derivação do EM está bem, eu entendo. Também entendo por que o algoritmo cobre algo: em cada etapa, melhoramos o resultado e a probabilidade é limitada por 1,0; portanto, usando um fato simples (se uma função aumenta e é limitada, converge), sabemos que o algoritmo converge para alguma solução.

No entanto, como sabemos que é um mínimo local? Em cada etapa, estamos considerando apenas uma coordenada (variável latente ou parâmetros), para que possamos perder alguma coisa, como se o mínimo local exigisse o movimento de ambas as coordenadas ao mesmo tempo.

Acredito que esse seja um problema semelhante ao da classe geral de algoritmos de escalada, da qual EM é uma instância. Portanto, para um algoritmo geral de escalada em montanhas, temos esse problema para a função f (x, y) = x * y. Se começarmos do ponto (0, 0), somente considerando as duas direções ao mesmo tempo, poderemos subir do valor 0.


3
A probabilidade é limitada apenas para desvios fixos. Ou seja, na situação binomial, a variação é ; ou na situação gaussiana, se a variação for assumida conhecida. Se a variação for desconhecida e precisar ser estimada, a probabilidade não será limitada. Além disso, no algoritmo EM, há uma separação genérica dos parâmetros ausentes e ausentes, pelo menos para os estatísticos freqüentadores, mas as superfícies podem de fato ter selas. p(1p)
StasK

@Stask Não tenho certeza de que a probabilidade seja geralmente limitada, mesmo com variações fixas. Você está restringindo alguma família em particular?
Glen_b -Reinstala Monica

Respostas:


27

Não é garantido que o EM converja para um mínimo local. Só é garantido que converja para um ponto com gradiente zero em relação aos parâmetros. Portanto, ele pode realmente ficar preso nos pontos de sela.


11
Para exemplos, veja as páginas 20 e 38 aqui , p. 85 aqui - tente "ponto de sela" no Amazon reader.
Stask

13

Primeiro de tudo, é possível que o EM converja para um mínimo local , um máximo local ou um ponto de sela da função de probabilidade. Mais precisamente, como Tom Minka apontou, o EM é garantido para convergir para um ponto com gradiente zero .

Eu posso pensar em duas maneiras de ver isso; a primeira visão é pura intuição e a segunda é o esboço de uma prova formal. Primeiro, explicarei brevemente como o EM funciona:

tbt(θ)L(θ)θt=argmaxθbt(θ)

Expectativa Maximização como subida de gradiente

Em cada iteração , EM exige que o limite toque na função de probabilidade na solução da iteração anterior, isto é, que implica que seus gradientes também são os mesmos; isto é . Portanto, EM é pelo menos tão bom quanto a subida do gradiente porque é pelo menos tão bom quanto . Em outras palavras:b t L θ t - 1 g = b t ( θ t - 1 ) = L ( θ t - 1 ) θ t θ t - 1 + η gtbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

se EM converge para então é um ponto convergente para subida de gradiente e EM satisfaz qualquer propriedade compartilhada entre as soluções de ascensão de gradiente (incluindo o valor de gradiente zero).θ θθ

Esboço de uma prova formal

Pode-se mostrar que a diferença entre os limites e a função de probabilidade converge para zero; isto é Pode-se provar que o gradiente do limite também converge para o gradiente da função de probabilidade; ou seja: Por causa de e e que os limites usados ​​no EM são diferenciáveis, e que , temos esse e, portanto, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)lim t L ( θ t ) = 0bt(θt)=0limtL(θt)=0
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.