Cluster ou classificação supervisionada?

A segunda pergunta é que eu encontrei em uma discussão em algum lugar na Web falando sobre "cluster supervisionado", tanto quanto eu sei, cluster não é supervisionado, então qual é exatamente o significado por trás de "cluster supervisionado"? Qual a diferença em relação à "classificação"?

Existem muitos links falando sobre isso:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

etc ...

— shn
fonte

por favor, forneça o link da "discussão em algum lugar na web"

— Atilla Ozgur

@AtillaOzgur, existem muitos links falando sobre cluster supervisionado. Adicionei alguns deles ao meu post: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: books.nips .cc / papers / files / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/… [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

— SHN

"Clustering" é sinônimo de "classificação não supervisionada", portanto, "clustering supervisionado" é um oxímoro. Pode-se argumentar, no entanto, que os mapas auto-organizados são uma técnica supervisionada usada para classificação não supervisionada, que seria a coisa mais próxima do "agrupamento supervisionado".

— Digio 20/08/2015

Até onde eu entendi, é "Usamos o clustering para organizar os dados para prepará-los para processamento adicional ou, pelo menos, para analisá-los". Portanto, o que fazemos no clustering é dividir os dados nas classes A, B, C e assim por diante ... Portanto, agora esses dados são supervisionados de alguma maneira. Agora, depende do requisito o que você deseja fazer com esses dados ou como esses dados podem ser úteis, seja para operações de Classificação ou para Regressão. Corrija-me se eu estiver errado.

— sak 7/08

Respostas:

Meu entendimento ingênuo é que a classificação é realizada onde você tem um conjunto especificado de classes e deseja classificar uma nova coisa / conjunto de dados em uma dessas classes especificadas.

Como alternativa, o cluster não tem nada para começar e você usa todos os dados (incluindo o novo) para separar em clusters.

Ambos usam métricas de distância para decidir como agrupar / classificar. A diferença é que a classificação se baseia em um conjunto de classes definido anteriormente, enquanto o cluster decide os clusters com base em todos os dados.

Novamente, meu ingênuo entendimento é que o cluster supervisionado ainda agrupa com base em dados inteiros e, portanto, seria agrupar em vez de classificar.

Na realidade, tenho certeza de que a teoria por trás do agrupamento e da classificação é entrelaçada.

— adunaico
fonte

Eu discordo humildemente. Você está sugerindo que "classificação" é por definição e, por padrão, um processo supervisionado, o que não é verdade. A classificação é dividida em casos supervisionados e não supervisionados, sendo este último sinônimo de agrupamento.

— Digio 20/08/2015

Acho que não sei mais do que você, mas os links que você postou sugerem respostas. Tomarei http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf como exemplo. Basicamente, eles afirmam: 1) o agrupamento depende de uma distância. 2) o uso bem-sucedido de k-means requer uma distância cuidadosamente escolhida. 3) Dados os dados de treinamento na forma de conjuntos de itens com o particionamento desejado, fornecemos um método SVM estrutural que aprende uma medida de distância para que o k-mean produz os agrupamentos desejados.Nesse caso, há um estágio supervisionado para o agrupamento, com dados de treinamento e aprendizado. O objetivo desse estágio é aprender uma função de distância para que a aplicação do agrupamento de médias k com essa distância seja esperançosamente ideal, dependendo de quão bem os dados de treinamento se assemelhem ao domínio do aplicativo. Todas as advertências usuais apropriadas para aprendizado de máquina e cluster ainda se aplicam.

Citações adicionais do artigo: O clustering supervisionado é a tarefa de adaptar automaticamente um algoritmo de clustering com a ajuda de um conjunto de treinamento que consiste em conjuntos de itens e particionamentos completos desses conjuntos de itens. . Parece uma definição razoável.

— micans
fonte

O problema é simples: por que você deseja aprender uma medida de distância a partir de um conjunto de dados de treinamento rotulados e depois aplicar essa medida de distância com um método de agrupamento; por que você não usaria apenas um método supervisionado. Em outras palavras, você deseja fazer cluster (ou seja, particionar seu conjunto de dados em clusters), mas assume que já possui o particionamento completo desejado e que o usará para aprender uma medida de distância, e depois aplicar o cluster neste conjunto de dados usando este aprendizado distância. Na melhor das hipóteses, você obterá as mesmas partições que usou para aprender a medida da distância! Você já tem

— shn 10/10/12

Onde você escreve "em seguida, aplique o cluster neste banco de dados" substituto "e aplique o cluster em conjuntos de dados semelhantes". É este cenário: no experimento X, temos os dados A e B. A é para agrupamento, B ajuda no aprendizado à distância. B define um padrão-ouro e é presumivelmente caro de obter. Em posterior X2 experimentos, X3 .. obtemos A, mas não pode dar ao luxo de obter B.

— micans

Ok, agora quando você diz "aprendendo a distância" de um conjunto de dados B: você quer dizer "aprendendo algum valor limite de distância" ou "aprendendo uma função métrica à distância" (uma espécie de medida parametrizada de dissimilaridade)?

— Página

Quero dizer o segundo, "aprendendo uma função métrica à distância". Após uma leitura mais detalhada, minha formulação simples A e B acima pode ser encontrada no manuscrito citado: "Dados exemplos de treinamento de conjuntos de itens com seus agrupamentos corretos, o objetivo é aprender uma medida de similaridade para que futuros conjuntos de itens sejam agrupados de maneira semelhante ".

— micans

Bem, parece que o "cluster supervisionado" é muito semelhante ao que é chamado de "cluster semi-supervisionado". Até agora, não vejo realmente nenhuma diferença. A propósito, em alguns outros trabalhos, o "agrupamento (semi-) supervisionado" não se refere à "criação de uma função de distância modificada" a ser usada para agrupar futuros conjuntos de dados de maneira semelhante; trata-se de "modificar o próprio algoritmo de agrupamento" sem alterar a função de distância!

— Página

Algumas definições: O

armazenamento em cluster supervisionado é aplicado em exemplos classificados com o objetivo de identificar clusters que possuem alta densidade de probabilidade para uma única classe.

O clustering não supervisionado é uma estrutura de aprendizado que utiliza funções específicas de um objeto, por exemplo, uma função que minimiza as distâncias dentro de um cluster para mantê-lo rígido.

O armazenamento em cluster semi-supervisionado é aprimorar um algoritmo de armazenamento em cluster usando informações secundárias no processo de armazenamento em cluster.

Avanços nas redes neurais - ISNN 2010

Sem usar muito jargão, já que sou novato nesta área, a maneira como entendo que o clustering supervisionado é mais ou menos assim:

No cluster supervisionado, você começa de cima para baixocom algumas classes predefinidas e, em seguida, usando uma abordagem de baixo para cima , você descobre quais objetos se encaixam melhor em suas classes.

Por exemplo, você realizou um estudo sobre o tipo favorito de laranjas em uma população.
Dos muitos tipos de laranjas, você descobriu que um 'tipo' específico de laranjas é o preferido.
No entanto, esse tipo de laranja é muito delicado e lábil a infecções, mudanças climáticas e outros agentes ambientais.
Então você quer cruzar com outras espécies que são muito resistentes a esses insultos.
Então você vai ao laboratório e encontrou alguns genes responsáveis pelo sabor suculento e doce de um tipo e pelas capacidades resistentes do outro tipo.
Você realiza várias experiências e termina com, digamos, cem subtipos diferentes de laranjas.
Agora você está interessado apenas nos subtipos que se encaixam perfeitamente nas propriedades descritas.
Você não deseja realizar o mesmo estudo em sua população novamente ...
Você conhece as propriedades que procura na sua cor laranja perfeita.
Portanto, você executa sua análise de cluster e seleciona as que melhor atendem às suas expectativas.

— Diego
fonte