Por que otimizar uma mistura de gaussiana diretamente computacionalmente difícil?

18

Considere a probabilidade de log de uma mistura de gaussianos:

l (S_{n}; θ) = \sum_{t = 1}^{n} \log f (x^{(t)} | θ) = \sum_{t = 1}^{n} \log {\sum_{i = 1}^{k} p_{i} f (x^{(t)} | μ^{(i)}, σ_{i}^{2})}

$l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\}$

Fiquei me perguntando por que era computacionalmente difícil maximizar essa equação diretamente? Eu estava procurando por uma clara intuição sólida sobre por que deveria ser óbvio que é difícil ou talvez uma explicação mais rigorosa do por que é difícil. Esse problema está completo ou não sabemos ainda como resolvê-lo? É por isso que recorremos ao algoritmo EM ( maximização de expectativa )?

Notação:

$S_n$ = dados de treinamento.

$x^{(t)}$ = ponto de dados.

$\theta$ = o conjunto de parâmetros que especifica o Gaussiano, seus meios, desvios-padrão e a probabilidade de gerar um ponto de cada cluster / classe / Gaussiano.

$p_i$ = a probabilidade de gerar um ponto do cluster / classe / gaussiano i.

machine-learning gaussian-mixture expectation-maximization

— Pinóquio
fonte

14

Primeiro, o GMM é um algoritmo específico para agrupamento, em que você tenta encontrar a rotulagem ideal de suas observações. Tendo aulas possíveis, significa que existem rotulações possíveis de seus dados de treinamento. Isso já se torna enorme para valores moderados de e . $n$ $k$ $k^n$ $k$ $n$

Segundo, o funcional que você está tentando minimizar não é convexo e, junto com o tamanho do seu problema, dificulta bastante. Eu só sei que o k-means (GMM pode ser visto como uma versão suave do kmeans) é difícil de usar NP. Mas não sei se isso também foi provado para GMM.

Para verificar que o problema não é convexo, considere o caso unidimensional: e verifique se você não pode garantir que para todos os x.

L = \log (e^{- (x / σ_{1})^{2}} + e^{- (x / σ_{2})^{2}})

$L = \log \left(e^{-({x}/{\sigma_{1}})^2} + e^{-({x}/{\sigma_{2}})^2}\right)$

\frac{d^{2} L}{d x^{2}} > 0

$\frac{d^2L}{dx^2} > 0$

Ter um problema não convexo significa que você pode ficar preso em mínimos locais. Em geral, você não possui as garantias fortes que possui na otimização convexa, e procurar uma solução também é muito mais difícil.

— jpmuc
fonte

3

Em relação ao segundo ponto: k-médias podem ser vistas como um caso especial de GMMs (mais precisamente, um caso limite em que as variações são levadas a zero). Se pudermos reduzir o k-mean ao ajuste de um GMM, este último também deve ser um problema de NP.

— Lucas

1

@ Lucas: Aqui está um link cruzado validado para a sua observação.

— Xi'an

7

Além dos pontos de juampa, permitam-me sinalizar essas dificuldades:

A função é ilimitada, portanto o máximo verdadeiro é e corresponde a (por exemplo) e . Um verdadeiro maximizador deve, portanto, terminar com esta solução, que não é útil para fins de estimativa. $l(\theta|S_n)$ $+\infty$ $\hat\mu^{(i)}=x_1$ $\hat\sigma_i=0$
Mesmo sem considerar os termos na decomposição do produto de somas como uma soma de produtos em , a função a ser maximizada em é altamente multimodal (além de não ser convexa), portanto, um desafio para os métodos numéricos. O EM reconhece a dificuldade convergindo para um modo local ou ponto de sela e exigindo várias execuções. Como mostrado $k^n$ $l(\theta|S_n)$ $\theta$

tirado do meu livro .

Uma observação adicional: sem chamar o algoritmo EM, pode-se usar um algoritmo de otimização padrão (como Newton-Raphson) um parâmetro de cada vez, ou seja, iterar

encontre $\theta_1^\prime=\arg\max_{\theta_1} l(\theta|S_n)$
encontre $\theta_2^\prime=\arg\max_{\theta_2} l(\theta_1^\prime,\theta_{-1}|S_n)$
...
encontre $\theta_v^\prime=\arg\max_{\theta_v} l(\theta_{-v}^\prime,\theta_v|S_n)$

se houver parâmetros e cada etapa aumentar o valor da função de destino , mas esse esquema acabará na melhor das hipóteses no mesmo modo que o algoritmo EM. $v$ $l(\theta|S_n)$

— Xi'an
fonte

OK, L é ilimitado se a variação for 0. Mas se os excluirmos dos parâmetros possíveis (então assumimos toda a variação> 0), L não será tão alto sempre que a variação escolhida infinitesimalmente (devido a outros pontos). Estou certo? Então, para esse possível conjunto de parâmetros, L seria limitado e isso implicará que o algoritmo EM converja (aumentando a sequência limitada).

— ahstat

@ahstat: supor que as variações sejam estritamente positivas não impede que o EM converja para uma solução degenerada se iniciado perto o suficiente.

— Xian