O k-means pode ser usado para dados não distribuídos normalmente?

Eu li muitos artigos que testam o k-means com muitos conjuntos de dados que normalmente não são distribuídos como o conjunto de dados da íris e obtêm bons resultados. Como entendo que o k-means é para dados normalmente distribuídos, por que o k-means está sendo usado para dados não distribuídos normalmente?

Por exemplo, o artigo abaixo modificou os centróides de k-médias com base em uma curva de distribuição normal e testou o algoritmo com o conjunto de dados da íris que normalmente não é distribuído.

quase todos os inliers (precisamente 99,73%) apontam para distâncias centróides dentro de 3 desvios padrão (𝜎) da média da população.

Existe algo que eu não estou entendendo aqui?

Olukanmi e Twala (2017). K-means-sharp: atualização de centróide modificada para agrupamento k-means robusto e mais robusto
Conjunto de dados Iris

normal-distribution outliers k-means

— do utilizador
fonte

E se este simplesmente for um papel muito ruim? Não parece um local de alta classe para mim.

— QuIT - Anony-Mousse 2/19/19

A alegação citada no artigo é precedida pela suposição de que os dados são normais. O que é desnecessariamente restritivo nesse artigo é a afirmação de que o k-means assume normalidade, sugerindo que não poderia ser um procedimento de agrupamento satisfatório se os dados não forem conjuntamente normais.

— CloseToC 02/09/19

o artigo foi publicado no IEEE

— usuário

Minha pergunta foi relacionada ao conjunto experimental de dados da íris no mesmo artigo. Como noto que o conjunto de dados da íris não é normalmente distribuído. kaggle.com/saurabh00007/iriscsv

— user

Bem, você verificou qual% de inliers no irisconjunto de dados está realmente a 3 sd dos centróides? Provavelmente ainda é verdade, mas não segue automaticamente se a distribuição não for normal. Presumivelmente, os autores precisam apenas adicionar uma linha que esclareça isso.

— smci 2/09/19

Respostas:

Aqui está a citação completa:

K-significa, sendo uma instância do Gaussian Mixture Model (GMM), assume a distribuição de dados gaussiana [20] [26]. Segue-se que quase todos os inliers (precisamente 99,73%) terão distâncias ponto a centróide dentro de três desvios padrão ( ) da média da população. $\sigma$

Aparece na seção IV.A.

O aplicativo para o conjunto de dados Iris, que, como você observa, normalmente não é distribuído, aparece na seção V ("Experiências").

Não vejo um problema lógico em observar primeiro as propriedades de um algoritmo sob certas suposições, como normalidade, e depois testá-lo nos casos em que a suposição não é válida.

E, é claro, k-means podem ser aplicados a qualquer conjunto de dados. Se produz resultados úteis é uma questão diferente.

— Stephan Kolassa
fonte

Obrigado, a suposição de ponto como média dentro do desvio padrão pode ser aceitável em um conjunto de dados distribuídos fora do normal?

— usuário

Depende da distribuição que você assume.

— Stephan Kolassa 02/09/19

Você pode explicar mais?. Se eu tiver um conjunto de dados distribuído correto e inclinado, posso adicionar valores extremos> média + 4 std e seguir a mesma suposição de papel para detectá-lo ?.

— usuário

Se você começar com uma premissa distributiva, não poderá simplesmente "adicionar discrepantes". A probabilidade de "outliers" depende da distribuição que você está assumindo. (O que é um "outlier" também é frequentemente questionável.) Se algo sobre o artigo não estiver claro, provavelmente seria melhor formular uma nova pergunta.

— Stephan Kolassa

Os erros são adicionados a cada recurso deste documento (5% a 20% do conjunto de dados). Caso algo não esteja claro sobre este artigo, farei outra pergunta. Muito obrigado.

— usuário

Não sei ao certo qual é a pergunta, mas o desvio padrão não é definido apenas para distribuições normais. É uma medida relevante para todas as distribuições de dados. Quanto mais longe você estiver da média (em termos de padrão), mais improvável será esse ponto. A única coisa especial sobre a distribuição normal, em relação ao desvio padrão, é que você sabe a probabilidade de um ponto ocorrer dentro de 1, 2 ou 3 desvios padrão (por exemplo, você sabe que um ponto tem uma probabilidade de 99,7% de permanecer dentro de desvios-padrão da média). $\pm 3$

No entanto, isso não significa que o desvio padrão seja irrelevante para outras distribuições (possivelmente desconhecidas). Ainda é relevante, mas você não sabe a probabilidade associada a ele.

— CaucM
fonte

ok, quero dizer, mas neste documento, o conjunto de dados não é normalmente distribuído e ainda assume dados (99,7% deve estar dentro de ± 3 desvios-padrão da média). minha pergunta relacionada a este ponto

— usuário

Eu acho que você está certo. Esta suposição é falsa, na minha opinião.

— CaucM 02/09/19

The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.Isso pode não ser verdade para distribuições multimodais.

— JAD

Você sabe como é provável que algum evento ocorra dentro de 1, 2 ou 3 desvios padrão também para outras distribuições, portanto isso não é realmente especial. Uma coisa especial é que, para uma determinada média e variação, a distribuição normal é a que apresenta maior entropia; portanto, se você souber apenas média e variação, você a escolherá pelo princípio da entropia máxima pt.wikipedia.org/wiki / Principle_of_maximum_entropy

— etarion

Esta regra pode ser trabalhada para outras distribuições?

— usuário