Derivando o algoritmo K-means como um limite de Maximização de Expectativas para Misturas Gaussianas

Christopher Bishop define o valor esperado da função de probabilidade do log de dados completos (ou seja, assumindo que recebemos os dados observáveis X e os dados latentes Z) da seguinte maneira:

\begin{matrix} (1) & E_{Z} [\ln p (X, Z ∣ μ, Σ, π)] = \sum_{n = 1}^{N} \sum_{k = 1}^{K} γ (z_{n k}) {\ln π_{k} + \ln N (x_{n} ∣ μ_{k}, Σ_{k})} \end{matrix}

$\mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1$

onde $\gamma(z_{nk})$ é definido como:

\begin{matrix} 2) & \frac{π_{k} N (x_{n} ∣ μ_{k}, Σ_{k})}{\sum_{j = 1}^{K} π_{j} N (x_{n} ∣ μ_{j}, Σ_{j})} \end{matrix}

$\frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2$

A idéia, como descrita, é considerar um Modelo de Mistura Gaussiano no qual as matrizes de covariância dos componentes da mistura são dadas por $\epsilon \textbf{I}$ , em que $\epsilon$ é um parâmetro de variação compartilhado por todos os componentes, como aquele:

\begin{matrix} (3) & p (x ∣ μ_{k}, Σ_{k}) = \frac{1}{(2 π ϵ)^{\frac{M}{2}}} \exp {- \frac{1}{2 ϵ}__x - μ_{k} {__}^{2}} \end{matrix}

$p(\textbf x \mid \boldsymbol \mu_k, \boldsymbol \Sigma_k) = \frac{1}{(2 \pi \epsilon)^\frac{M}{2}} \exp\big\{{-\frac{1}{2 \epsilon} \|\textbf x - \boldsymbol \mu_k\|^2}\big\} \tag 3$

e assim, $\gamma(z_{nk})$ agora é definido como:

\begin{matrix} 4) & \frac{π_{k} \exp {-__x_{n} - μ_{k} {__}^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {-__x_{n} - μ_{j} {__}^{2} / 2 ϵ}} \end{matrix}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}} \tag 4$

O argumento agora é o seguinte:

se considerarmos o limite , vemos que no denominador o termo para o qual é menor, passará a zero mais lentamente e, portanto, as responsabilidades para o ponto de dados vão para zero, exceto pelo termo j, pela qual a responsabilidade irá para a unidade. Assim, nesse limite, obtemos uma atribuição rígida de pontos de dados para clusters, assim como no algoritmo -eans, de modo que $\epsilon \to 0$ $\| \textbf x_n - \boldsymbol \mu_j\|^2$ $\gamma(z_{nk})$ $\textbf x_n$ $\gamma(z_{nk})$ $K$ $\gamma(z_{nk}) \to r_{nk}$

onde é definido como: $r_{nk}$

\begin{matrix} (5) & f (n) = {\begin{cases} 1 & E se k = arg {min}_{j}__x_{n} - μ_{j} {__}^{2} \\ 0 0 & de outra forma \end{cases} \end{matrix}

$\begin{equation*} f(n) = \begin{cases} 1 & \text{if } k = \text{arg } \text{min}_j \|\textbf x_n - \boldsymbol \mu_j\|^2\\ 0 & \text{otherwise}\\ \tag 5 \end{cases} \end{equation*}$

Minha pergunta é como o argumento acima se aplica? Ou seja, o que significa um termo ir para zero ? E como levar o limite na eqn resulta em uma responsabilidade binária? $\textbf{most slowly}$ $\epsilon \to 0$ $4$

— BitRiver
fonte

Quando a zero, vai para zero para todos os , mas em velocidades diferentes, dependendo de , o menor reúna todo o peso no limite.

ϵ

$\epsilon$

\exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ} = \exp {- δ_{n} / ϵ}

$\exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}=\exp\{-\delta_n/\epsilon\}$

n

$n$

δ_{n}

$\delta_n$

δ_{n}

$\delta_n$

— Xi'an

(explicação adicional) Se você considerar como o menor , poderá reescrever todos os termos como , o que significa que todos os termos zerados com exceto um, aquele para o qual .

δ^{*}

$\delta^*$

δ_{n}

$\delta_n$

\exp {(δ^{*} - δ_{n}) / ϵ}

$\exp\{(\delta^*-\delta_n)/\epsilon\}$

ϵ

$\epsilon$

δ^{*} - δ_{n} = 0

$\delta^*-\delta_n=0$

— Xi'an

@ Xi'an Você gostaria de fornecer mais elaboração? O que você quer dizer com "o menor então reúne todo o peso no limite"? E como o termo para o qual = 0 é avaliado como unidade? Quero dizer, o numerador é 0, certo?

δ_{n}

$\delta_n$

δ^{*} - δ_{n}

$\delta^* - \delta_n$

— BitRiver

Vamos escrever Então Se usarmos teremos where exceto em que

__x_{n} - μ_{k} {__}^{2} = δ_{k} .

$\|\textbf x_n - \boldsymbol \mu_k\|^2=\delta_k\,.$

\frac{π_{k} \exp {-__x_{n} - μ_{k} {__}^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {-__x_{n} - μ_{j} {__}^{2} / 2 ϵ}} = \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}}=\frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}$

δ^{*} = min_{n} δ_{n},

$\delta^*=\min_n\delta_n\,,$

\begin{aligned} \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}} & = \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} \end{aligned}

$\begin{align*} \frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}&=\frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}} \end{align*}$

δ^{*} - δ_{k} < 0

$\delta^*-\delta_k<0$

k = k^{*}

$k=k^*$

δ^{*} - δ_{k^{*}} = 0

$\delta^*-\delta_{k^*}=0$ . Portanto, para todos os , , pois, para , enquanto

k \neq k^{*}

$k\ne k^*$

lim_{ϵ \to 0 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 0 0

$\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=0$

a > 0

$a>0$

lim_{ϵ \to 0 0} \exp {- uma / ϵ} = 0 0

$\lim_{\epsilon\to 0}\exp\{-a/\epsilon \}=0$

lim_{ϵ \to 0 0} \frac{π_{k^{*}} \exp {(δ^{*} - δ_{k^{*}}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0 0} \frac{π_{k^{*}} \times 1}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 1

$\lim_{\epsilon\to 0} \frac{\pi_{k^*} \exp\{(\delta^*- \delta_{k^*})/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_{k^*} \times 1}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=1$

— Xi'an
fonte