Eu li muitos artigos que testam o k-means com muitos conjuntos de dados que normalmente não são distribuídos como o conjunto de dados da íris e obtêm bons resultados. Como entendo que o k-means é para dados normalmente distribuídos, por que o k-means está sendo usado para dados não distribuídos normalmente?
Por exemplo, o artigo abaixo modificou os centróides de k-médias com base em uma curva de distribuição normal e testou o algoritmo com o conjunto de dados da íris que normalmente não é distribuído.
quase todos os inliers (precisamente 99,73%) apontam para distâncias centróides dentro de 3 desvios padrão (𝜎) da média da população.
Existe algo que eu não estou entendendo aqui?
iris
conjunto de dados está realmente a 3 sd dos centróides? Provavelmente ainda é verdade, mas não segue automaticamente se a distribuição não for normal. Presumivelmente, os autores precisam apenas adicionar uma linha que esclareça isso.