A normalização média e o dimensionamento de recursos são necessários para o cluster k-means?

Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o K-means?

clustering normalization k-means

— pedrosaurio
fonte

você pode achar útil: stats.stackexchange.com/q/19216/6637

— Dov

Respostas:

Se suas variáveis são de unidades incomparáveis (por exemplo, altura em cm e peso em kg), é claro que você deve padronizar as variáveis. Mesmo se as variáveis tiverem as mesmas unidades, mas mostrarem variações bastante diferentes, ainda é uma boa idéia padronizar antes do K-mean. Veja bem, o agrupamento K-significa é "isotrópico" em todas as direções do espaço e, portanto, tende a produzir clusters mais ou menos redondos (em vez de alongados). Nessa situação, deixar as variações desiguais equivale a colocar mais peso nas variáveis com menor variação, de modo que os agrupamentos tendem a ser separados ao longo de variáveis com maior variação.

$^1$

Aqui está um raciocínio geral sobre a questão dos recursos de padronização em cluster ou outra análise multivariada.

$^1$

— ttnphns
fonte

A randomização, re-execução, média e execução final é um conselho muito bom. Obrigado

— pedrosaurio

Como o k-significa seria sensível ao pedido?

— SmallChess

@StudentT, adicionei uma nota de rodapé para isso. Obrigado.

— ttnphns

@ttnphns como determinar quantitativamente que variáveis têm "variações bastante diferentes"?

— Herman Toothrot

@camillejr, comece verificando este Q: stats.stackexchange.com/q/418427/3277 .

— ttnphns 6/11

Depende dos seus dados, eu acho. Se você deseja que as tendências de seus dados se agrupem, independentemente da magnitude, você deve centralizar. por exemplo. digamos que você tenha algum perfil de expressão gênica e deseje ver tendências na expressão gênica; então, sem centralização média, seus genes de baixa expressão se agruparão e se afastarão dos genes de alta expressão, independentemente das tendências. A centralização faz com que genes (expressos alto e baixo) com padrões de expressão semelhantes se agrupem.

— Nightwriter
fonte

Na verdade, estou comparando diferentes recursos que têm sua própria escala. Por exemplo, estou comparando o conteúdo do GC, que varia de 0,3 a 0,5, o que pode parecer pequeno, mas a diferença é bastante importante; algumas outras características têm faixas mais amplas, outras variam em escalas muito pequenas.

— pedrosaurio

Então, você está agrupando fatores diferentes? Talvez possa usar algum peso ou transformação de valores.

— Nightwriter

Não, estou comparando todas as variáveis contínuas

— pedrosaurio