EM, existe uma explicação intuitiva?

O procedimento EM aparece, para os não iniciados, como mais ou menos magia negra. Estimar parâmetros de um HMM (por exemplo) usando dados supervisionados. Em seguida, decodifique os dados não marcados, usando o retrocesso para 'contar' os eventos como se os dados fossem marcados, mais ou menos. Por que isso melhora o modelo? Eu sei algo sobre matemática, mas continuo desejando algum tipo de imagem mental dela.

expectation-maximization intuition

— bmargulies
fonte

Não tenho certeza, mas acho que é possível interpretá-lo como um procedimento de otimização de descida de gradiente estocástico. Vou pensar sobre isso ...

— robin Girard

Apenas para economizar digitação, chame os dados observados , os dados ausentes (por exemplo, os estados ocultos do HMM) e o vetor de parâmetro que estamos tentando encontrar (por exemplo, probabilidades de transição / emissão). $X$ $Z$ $Q$

A explicação intuitiva é que basicamente trapaceamos, fingimos por um momento que conhecemos para encontrar uma distribuição condicional de Z que, por sua vez, nos permite encontrar o MLE para (ignorando por um momento o fato de estarmos basicamente fazendo uma circular argumento), então admita que trapaceamos, colocamos nosso novo e melhor valor para e fazemos tudo de novo até não precisarmos mais trapacear. $Q$ $Q$ $Q$

Um pouco mais tecnicamente, fingindo que conhecemos o valor real , podemos fingir que sabemos algo sobre a distribuição condicional de , o que nos permite melhorar nossa estimativa para , que agora fingimos ser o valor real de para que possamos fingir que sabemos algo sobre a distribuição condicional de , o que nos permite melhorar nossa estimativa para , que ... e assim por diante. $Q$ $Z|\{X,Q\}$ $Q$ $Q$ $Z|\{X,Q\}$ $Q$

Ainda mais tecnicamente, se conhecêssemos , poderíamos maximizar o e ter a resposta certa. O problema é que não conhecemos e qualquer estimativa para deve depender disso. Mas se queremos encontrar a melhor estimativa (ou distribuição) para , então precisamos saber e . Estamos presos em uma situação de galinha e ovo se quisermos o maximizador exclusivo analiticamente. $Z$ $\log(f(Q|X,Z))$ $Z$ $Q$ $Z$ $X$ $Q$

Nossa saída é que - para qualquer estimativa de (chame de ) - podemos encontrar a distribuição de e, portanto, podemos maximizar nossa probabilidade conjunta esperada de log de , com relação à distribuição condicional de . Essa distribuição condicional basicamente nos diz como depende do valor atual de dado $Q$ $Q_n$ $Z|\{Q_n,X\}$ $Q|\{X,Z\}$ $Z|\{Q_n,X\}$ $Z$ $Q$ $X$ , e nos permite saber como alterar para aumentar nossa probabilidade de e ao mesmo tempo para um valor específico de (que chamamos de ). Depois que escolhemos um novo , temos uma distribuição condicional diferente para e, portanto, deve recalcular a expectativa. $Q$ $Q$ $Z$ $Q$ $Q_n$ $Q_{n+1}$ $Z|\{Q_{n+1}, X\}$

— Rico
fonte