Referências que justificam o uso de misturas gaussianas


14

Os modelos de mistura gaussiana (GMMs) são atraentes porque são simples de trabalhar tanto analiticamente quanto na prática e são capazes de modelar algumas distribuições exóticas sem muita complexidade. Há algumas propriedades analíticas que devemos esperar manter que não são claras em geral. Em particular:

  • Diga Sn é a classe de todas as misturas gaussianas com n componentes. Para qualquer distribuição contínua P sobre os reais, temos a garantia de que, à medida que n cresce, podemos aproximar P com um GMM com perda insignificante no sentido de entropia relativa? Isto é, faz
    limninfP^SnD(P||P^)=0?
  • Dizer que temos uma distribuição contínua P e encontrámos uma N -component Gaussiana mistura P que está próximo de P na variação total: δ ( P , P ) < ε . Podemos obrigado D ( P | | P ) em termos de ε ?P^Pδ(P,P^)<εD(P||P^)ϵ
  • Se quisermos observar XPX através de ruído aditivo independente YPY (real, contínua), e temos MGM X ~ Q X , Y ~ Q N onde δ ( P , Q ) < ε , então esse valor é pequeno: | m m s e ( X | X + Y ) - m m s e (X^QX,Y^QNδ(P,Q)<ϵ
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    Ou seja, é verdade que a estimativaXatravés deYde ruído é de cerca de tão duro como a estimativa de X através Y ruído?X^Y^
  • Você pode fazer isso para modelos de ruído não aditivo como o ruído de Poisson?

Até agora, minha (curta) revisão de literatura acabou com tutoriais muito aplicados. Alguém tem alguma referência que demonstre rigorosamente sob quais condições somos justificados no uso de modelos de mistura?


3
O conjunto de GMMs é denso no conjunto de distribuições na topologia fraca (correspondente à convergência na distribuição); veja por exemplo aqui . Eu não tenho certeza se a sua primeira afirmação é, embora certamente exigiria permitindo que componentes de variância zero na mistura para lidar com quaisquer pontos de massa em . Também sou cético em relação ao segundo ponto, novamente por causa da questão das massas pontuais. P
Dougal 27/01

1
Bom ponto, eu especifiquei tudo deve ser contínua
enthdegree

1
Você pode ter melhor sorte olhando a literatura sobre estimativa de densidade de kernel com núcleos gaussianos. Como você tem uma mistura de gaussianos com um por amostra, à medida que o número de amostras aumenta, você obtém um estimador assintoticamente imparcial e consistente da distribuição? Acho que a resposta é sim, mas não foi possível encontrar uma referência imediatamente.
precisa saber é o seguinte

2
@enthdegree: Muito boa pergunta. Como você deseja usar topologias fortes (divergência de KL e variação total), a resposta geral para seus dois primeiros pontos é não: por exemplo, considere uma distribuição de cauda gorda; O KL para qualquer mistura gaussiana finita é infinito (eu tenho certeza que isso funciona, embora não seja 100%). Mas isso leva a uma pergunta muito mais interessante, para qual subclasse de distribuições de probabilidade todos os seus pontos-chave seriam aplicados? Não sei a resposta, mas parece extremamente interessante. Meu palpite é que provavelmente são quase todas as distribuições de probabilidade.
Guillaume Dehaene 03/02

1
Tomei uma aula com este livro. link Ele tem um histórico decente sobre os fundamentos.
EngrStudent - Restabelece Monica

Respostas:


0

Em econometria, onde o contexto é de distribuições mistas de coeficientes em modelos logit, a referência padrão é: MODELOS MNL MISTOS PARA RESPOSTA DISCRETA DANIEL MCFADDEN E TREM KENNETH, REVISTA DE ECONOMETRIA APLICADA, J. Appl. Econ. 15: 447-470 (2000).


0

Com relação às suas perguntas:

  1. Para o problema bayesiano muito semelhante da mistura de gaussianos do Dirichlet Process, entendo que a resposta é sim. Ghosal (2013) .
  2. Quando participei de algumas palestras sobre esse tópico, parecia que o progresso havia sido feito principalmente com a divergência de KL. Veja os slides de Harry van Zanten .
  3. Eu não estou claro. No entanto, isso parece um problema de separação de fontes ( desconhecido). Estes são geralmente muito mais difíceis do que a modelagem de mistura sozinha. Em particular, no caso simples de P N = P S = N ( 0 , 1 ), você não seria capaz de identificar os verdadeiros X e YPN,PSPN=PS=N(0,1)XY devido à simetria das distribuições em torno de zero.
  4. Veja o quarto dos slides acima, há uma lista de modelos bayesianos para os quais as garantias de convergência são válidas.

0

Aqui está uma resposta parcial.

Diga é a classe de todas as misturas gaussianas com n componentes. Para qualquer distribuição contínua P sobre os reais, temos a garantia de que, à medida que n cresce, podemos aproximar P com um GMM com perda insignificante no sentido de entropia relativa? Ou seja, faz lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

Não. Você só pode esperar que um KL divergência é pequeno se você sabe que Q 'caudas s, eventualmente, são da mesma ordem que P ' s. Isso não é verdade em geral. Não é difícil de perceber que para P de Cauchy, em seguida, para qualquer n , inf PS n D ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

São necessárias mais condições em para dizer isso.P

Dizer que temos uma distribuição contínua e encontrámos uma N -component Gaussiana mistura P que está próximo de P na variação total: δ ( P , P ) < ε . Podemos obrigado D ( P | | P ) em termos de ε ?PNP^Pδ(P,P^)<εD(P||P^)ϵ

Não. O mesmo exemplo acima se aplica.

XPXYPYX^QX,Y^QYδ(P,Q)<ϵ

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XYX^Y^

X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]|TV(P,Q)

Não pude provar isso, em geral, ou usando a estrutura aditiva extra que assumimos em P, Q, ou apresentar quaisquer contra-exemplos.

Você pode fazer isso para modelos de ruído não aditivo como o ruído de Poisson?

Isso é ambíguo. No contexto da pergunta anterior, se a afirmação nessa resposta puder ser comprovada em geral, então a resposta é sim.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.