A normalização média e o dimensionamento de recursos são necessários para o cluster k-means?


Respostas:


63

Se suas variáveis ​​são de unidades incomparáveis ​​(por exemplo, altura em cm e peso em kg), é claro que você deve padronizar as variáveis. Mesmo se as variáveis ​​tiverem as mesmas unidades, mas mostrarem variações bastante diferentes, ainda é uma boa idéia padronizar antes do K-mean. Veja bem, o agrupamento K-significa é "isotrópico" em todas as direções do espaço e, portanto, tende a produzir clusters mais ou menos redondos (em vez de alongados). Nessa situação, deixar as variações desiguais equivale a colocar mais peso nas variáveis ​​com menor variação, de modo que os agrupamentos tendem a ser separados ao longo de variáveis ​​com maior variação.

insira a descrição da imagem aqui

1

Aqui está um raciocínio geral sobre a questão dos recursos de padronização em cluster ou outra análise multivariada.


1


2
A randomização, re-execução, média e execução final é um conselho muito bom. Obrigado
pedrosaurio

11
Como o k-significa seria sensível ao pedido?
SmallChess

11
@StudentT, adicionei uma nota de rodapé para isso. Obrigado.
ttnphns

11
@ttnphns como determinar quantitativamente que variáveis ​​têm "variações bastante diferentes"?
Herman Toothrot

11
@camillejr, comece verificando este Q: stats.stackexchange.com/q/418427/3277 .
ttnphns 6/11

4

Depende dos seus dados, eu acho. Se você deseja que as tendências de seus dados se agrupem, independentemente da magnitude, você deve centralizar. por exemplo. digamos que você tenha algum perfil de expressão gênica e deseje ver tendências na expressão gênica; então, sem centralização média, seus genes de baixa expressão se agruparão e se afastarão dos genes de alta expressão, independentemente das tendências. A centralização faz com que genes (expressos alto e baixo) com padrões de expressão semelhantes se agrupem.


Na verdade, estou comparando diferentes recursos que têm sua própria escala. Por exemplo, estou comparando o conteúdo do GC, que varia de 0,3 a 0,5, o que pode parecer pequeno, mas a diferença é bastante importante; algumas outras características têm faixas mais amplas, outras variam em escalas muito pequenas.
pedrosaurio

Então, você está agrupando fatores diferentes? Talvez possa usar algum peso ou transformação de valores.
Nightwriter

Não, estou comparando todas as variáveis ​​contínuas
pedrosaurio
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.