Se o agrupamento k-means é uma forma de modelagem de mistura gaussiana, ele pode ser usado quando os dados não são normais?

Estou lendo Bishop no algoritmo EM para GMM e a relação entre GMM e k-means.

Neste livro, diz que k-means é uma versão de atribuição difícil do GMM. Gostaria de saber se isso implica que, se os dados que estou tentando agrupar não forem gaussianos, não posso usar o k-means (ou pelo menos não é adequado para uso)? Por exemplo, e se os dados forem imagens de dígitos manuscritos, consistindo em 8 * 8 pixels, cada um com o valor 0 ou 1 (e assumir que são independentes, portanto, deve ser uma mistura de Bernoulli)?

Estou um pouco confuso sobre isso e aprecio qualquer pensamento.

— eddie.xie
fonte

Se você está perguntando se é válido executar o cluster de k-means em dados não normais, a resposta é sim se se supuser que os dados sejam contínuos. Os dados binários não são contínuos. Algumas pessoas fazem k-meios nesses dados, o que é heuristicamente permitido, mas teoricamente inválido.

— ttnphns

Não há modelo de probabilidade para k-means, portanto não há hipótese de invalidação para invalidar. (não significa que funcionará bem)

— conjectures

@conjectures Hmm ... Mas k-menas é equivalente a GMM, e GMM assume normal.

— Eddie.xie 9/09/13

@ttnphns Obrigado pela sua resposta! Então, eu acho que se eu usar o TF-IDF para transferir texto para pontuações e torná-lo contínuo, posso aplicar e é válido?

— Eddie.xie 9/09/13

De repente, percebo que o GMM é uma mistura (soma de) alguns gaussianos e deve ser capaz de expressar qualquer distribuição dada a quantidade suficiente de misturas. Assim, mesmo GMM e meios K são equivalentes não significa que meios K não podem usar dados não normais porque o GMM pode expressar qualquer distribuição. Isso está correto?

— Eddie.xie 9/09/2013

Respostas:

Em situações típicas do EM GMM, leva-se em consideração a variação e a covariância. Isso não é feito em k-means.

Mas, de fato, uma das heurísticas populares para k-means (nota: k-means é um problema, não um algoritmo) - o algoritmo Lloyd - é essencialmente um algoritmo EM, usando um modelo centróide (sem variação) e tarefas difíceis.

Ao fazer cluster de estilo k-means (ou seja, minimização de variação), você

coincidentemente, minimizar a distância euclidiana ao quadrado, porque a contribuição da variação WCSS (soma de quadrados dentro do cluster) = distância euclidiana ao quadrado
por coincidência, atribua objetos ao cluster mais próximo por distância euclidiana, porque a função sqrt é monotônica (observe que a média não otimiza distâncias euclidianas, mas a função WCSS)
representar clusters usando apenas um centróide
obter clusters em forma de célula Voronoi, ou seja, polígonos
funciona melhor com clusters esféricos

{argmin}_{S} \sum_{Eu = 1}^{k} \sum_{x_{j} \in S_{Eu}} \sum_{d = 1}^{D} {(x_{j d} - μ_{Eu d})}^{2}

$\text{argmin}_S \sum_{i=1}^{k} \sum_{x_j \in S_i} \sum_{d=1}^{D} \left(x_{jd} - \mu_{id} \right)^2$

S = {S_{1} \dots S_{k}}

$S=\{S_1 \ldots S_k\}$

k

$k$

D

$D$

x_{j d}

$x_{jd}$

j

$j$

d

$d$

Costuma-se dizer que k-means assume grupos esféricos. Também é comumente reconhecido que os aglomerados de meios k são células de Voronoi, ou seja, não esféricas. Ambos estão corretos e ambos estão errados. Antes de tudo, os aglomerados não são células Voronoi completas, mas apenas os objetos conhecidos. Não há necessidade de considerar o espaço morto entre os clusters como parte de um ou outro cluster, pois ter um objeto ali afetaria o resultado do algoritmo. Mas não é muito melhor chamá-lo de "esférico", apenas porque a distância euclidiana é esférica. K-means não se importa com a distância euclidiana. Tudo isso é uma heurística para minimizar as variações . E isso é, na verdade, o que você deve considerar como k-significa: minimização de variância.

— Anony-Mousse -Reinstate Monica
fonte

Deixe-me sugerir que você refine um pouco de suas expressões - para obter mais precisão. Por exemplo, o que é minimize squared euclidean distanceou minimize the variances? Deve haver as palavras "soma de" ou "agrupado" ou algo assim, porque temos mais de 2 clusters, não é?

— ttnphns

BTW, como k-means minimiza a soma agrupada dentro do cluster de d ^ 2 dividida pelo número de objetos no respectivo cluster, seu ponto coincidentally minimize Euclidean distance, because the sqrt function is monotoneé, para ser preciso, não está correto.

— ttnphns

A função objetivo apropriada, para a qual você pode provar a convergência, é o WCSS, a soma dos quadrados dentro do cluster . E, de fato, não minimiza as distâncias euclidianas, mas a distância mais próxima de centróide por euclidiana também é a atribuição ideal do WCSS.

— Anony-Mousse # / / / / / / / / / / / Mônica / Re

Infelizmente, sua redação permanece duvidosa . O que minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance significa frase ? Você está dizendo que "ds ao quadrado entre os objetos nos clusters são minimizados porque os desvios do WCSS são minimizados" ou apenas "os desvios do WCSS são minimizados, que - os desvios - são distâncias euclidianas por natureza"? Ou mais?

— ttnphns

Obviamente, o k-means é uma boa escolha apenas se você quiser um modelo centróide de seus dados. Se você deseja otimizar distâncias aos pares, use o cluster hierárquico.

— Anony-Mousse # / / / / / / / / / / / / Mônica / Re

O GMM usa colinas sobrepostas que se estendem até o infinito (mas praticamente contam apenas com 3 sigma). Cada ponto obtém todas as pontuações de probabilidade das colinas. Além disso, as colinas são "em forma de ovo" [ok, são elipses simétricas ] e, usando a matriz de covariância completa, podem ser inclinadas .

K-significa atribui um ponto a um único cluster, para que as pontuações dos outros centros de cluster sejam ignoradas (são implicitamente redefinidas para zero / não se importam). As colinas são bolhas de sabão esféricas. Onde duas bolhas de sabão tocam, o limite entre elas se torna um plano (hiper) plano. Assim como quando você sopra uma espuma de muitas bolhas de sabão, as bolhas no interior não são planas, mas são quadradas, então os limites entre muitas (hiper) esferas formam na verdade uma partição Voronoi do espaço. Em 2D, isso tende a parecer vagamente com empacotamento hexagonal, pense em uma colméia (embora, é claro, as células de Voronoi não sejam garantidas como hexágonos). Uma colina K-significa é redonda e não é inclinada, por isso tem menos poder de representação; mas é muito mais rápido calcular, especialmente nas dimensões mais altas.

Como o K-means usa a métrica de distância euclidiana, ele assume que as dimensões são comparáveis e têm o mesmo peso. Portanto, se a dimensão X tiver unidades de milhas por hora, variando de 0 a 80, e a dimensão Y tiver unidades de libras, variando de 0 a 400, e você estiver ajustando círculos neste espaço XY, então uma dimensão (e sua expansão) será mais poderoso que a outra dimensão e ofuscará os resultados. É por isso que é normal normalizar os dados ao usar K-means.

GMM e meios K modelam os dados ajustando as melhores aproximações ao que é dado. O GMM se encaixa em ovos inclinados, e K-means se encaixa em esferas inclinadas. Mas os dados subjacentes podem ter a forma de qualquer coisa, podem ser uma espiral ou uma pintura de Picasso, e cada algoritmo ainda é executado e faz o melhor possível. Se o modelo resultante se parece com os dados reais depende do processo físico subjacente que os gera. (Por exemplo, as medições de atraso de tempo são unilaterais; um gaussiano é um bom ajuste? Talvez.)

No entanto, GMM e meios K assumem implicitamente eixos / domínios de dados provenientes do campo de números reais $R^n$ . Isso é importante com base no tipo de eixo / domínio de dados que você está tentando agrupar. O número inteiro ordenado é bem mapeado para reais. Símbolos ordenados, como cores em um espectro, não são tão agradáveis. Símbolos binários, ehn. Símbolos não ordenados não são mapeados para reais (a menos que você esteja usando uma nova matemática criativa desde 2000).

Assim, sua imagem binária de 8x8 será interpretada como um hipercubo de 64 dimensões no primeiro hipercalorante. Os algoritmos usam analogias geométricas para encontrar agrupamentos. A distância, com médias K, aparece como distância euclidiana no espaço 64-dimensional. É uma maneira de fazer isso.

— DragonLord
fonte

Observe que os dois algoritmos também assumem implicitamente que os eixos espaciais são igualmente densos em todos os pontos; portanto, o ajuste de dados de variação exponencial, logaritmicamente ou sinusoidalmente normalmente se beneficia de uma pré-transformação para remapear os dados em um domínio de variação aproximadamente linear.

— Dragonlord