Respostas:
Em geral, na classificação, você tem um conjunto de classes predefinidas e deseja saber a qual classe um novo objeto pertence.
O armazenamento em cluster tenta agrupar um conjunto de objetos e descobrir se há algum relacionamento entre os objetos.
No contexto do aprendizado de máquina, a classificação é um aprendizado supervisionado e o agrupamento é um aprendizado não supervisionado .
Veja também Classificação e clustering na Wikipedia.
Se você fez essa pergunta a qualquer pessoa que estuda mineração de dados ou aprendizado de máquina, elas usarão o termo aprendizado supervisionado e aprendizado não supervisionado para explicar a diferença entre agrupamento e classificação. Então, deixe-me explicar primeiro sobre a palavra-chave supervisionada e não supervisionada.
Aprendizado supervisionado: suponha que você tenha uma cesta e ela esteja cheia de frutas frescas e sua tarefa é organizar as frutas do mesmo tipo em um só lugar. suponha que as frutas sejam maçã, banana, cereja e uva. para que você já saiba de seu trabalho anterior que, a forma de cada fruta, é fácil organizar o mesmo tipo de fruta em um só lugar. aqui seu trabalho anterior é chamado de dados treinados na mineração de dados. então você já aprende as coisas com seus dados treinados. Isso ocorre porque você tem uma variável de resposta que diz que, se algumas frutas têm essas características, ela é uva, assim para cada fruta.
Este tipo de dados você obterá dos dados treinados. Esse tipo de aprendizado é chamado de aprendizado supervisionado. Esse problema de solução de tipo está em Classificação. Então você já aprende as coisas para poder trabalhar com confiança.
sem supervisão: suponha que você tenha uma cesta e ela esteja cheia de frutas frescas e sua tarefa é organizar as frutas do mesmo tipo em um só lugar.
Desta vez, você não sabe nada sobre essas frutas; você as vê pela primeira vez; então, como você organizará o mesmo tipo de frutas?
O que você fará primeiro é pegar a fruta e selecionar qualquer caráter físico dessa fruta em particular. suponha que você tirou cor.
Então você os organizará com base na cor, e os grupos serão algo assim. GRUPO DE COR VERMELHA: maçãs e frutas cereja. GRUPO DE COR VERDE: bananas e uvas. então agora você terá outro personagem físico como tamanho, então agora os grupos serão algo assim. COR VERMELHA E TAMANHO GRANDE: maçã. COR VERMELHA E TAMANHO PEQUENO: frutas cereja. COR VERDE E TAMANHO GRANDE: bananas. COR VERDE E TAMANHO PEQUENO : uvas. trabalho feito final feliz.
aqui você não aprendeu nada antes, significa que não há dados de trem nem variáveis de resposta. Esse tipo de aprendizado é conhecido como aprendizado não supervisionado. o agrupamento está sob aprendizado não supervisionado.
+ Classificação: você recebe novos dados, precisa definir um novo rótulo para eles.
Por exemplo, uma empresa deseja classificar seus possíveis clientes. Quando um novo cliente chega, eles precisam determinar se esse é um cliente que vai comprar seus produtos ou não.
+ Clustering: você recebe um conjunto de transações de histórico que registram quem comprou o quê.
Usando técnicas de cluster, você pode dizer a segmentação de seus clientes.
Estou certo de que muitos de vocês já ouviram falar em aprendizado de máquina. Uma dúzia de vocês pode até saber o que é. E alguns de vocês também podem ter trabalhado com algoritmos de aprendizado de máquina. Você vê onde isso vai? Muitas pessoas não estão familiarizadas com a tecnologia que será absolutamente essencial daqui a cinco anos. Siri é aprendizado de máquina. Alexa da Amazon é aprendizado de máquina. Os sistemas de recomendação de itens de anúncio e de compras são aprendizado de máquina. Vamos tentar entender o aprendizado de máquina com uma analogia simples de um menino de 2 anos. Apenas por diversão, vamos chamá-lo de Kylo Ren
Vamos supor que Kylo Ren tenha visto um elefante. O que seu cérebro lhe dirá? (Lembre-se de que ele tem capacidade de pensamento mínima, mesmo que seja o sucessor de Vader). Seu cérebro lhe dirá que ele viu uma grande criatura em movimento, de cor cinza. Ele vê um gato em seguida, e seu cérebro lhe diz que é uma pequena criatura em movimento, de cor dourada. Finalmente, ele vê um sabre de luz a seguir e seu cérebro diz a ele que é um objeto não-vivo com o qual ele pode brincar!
Nesse momento, seu cérebro sabe que o sabre é diferente do elefante e do gato, porque o sabre é algo para brincar e não se move por conta própria. Seu cérebro pode descobrir isso, mesmo que Kylo não saiba o que significa móvel. Esse fenômeno simples é chamado de clustering.
O aprendizado de máquina não passa de uma versão matemática desse processo. Muitas pessoas que estudam estatística perceberam que podem fazer com que algumas equações funcionem da mesma maneira que o cérebro. O cérebro pode agrupar objetos semelhantes, o cérebro pode aprender com os erros e o cérebro pode aprender a identificar as coisas.
Tudo isso pode ser representado com estatísticas e a simulação desse processo por computador é chamada de aprendizado de máquina. Por que precisamos da simulação baseada em computador? porque os computadores podem fazer matemática pesada mais rápido que o cérebro humano. Eu adoraria ir para a parte matemática / estatística do aprendizado de máquina, mas você não quer pular para isso sem antes clarear alguns conceitos.
Vamos voltar para Kylo Ren. Digamos que Kylo pegue o sabre e comece a brincar com ele. Ele acidentalmente acerta um stormtrooper e o stormtrooper se machuca. Ele não entende o que está acontecendo e continua tocando. Em seguida, ele bate em um gato e o gato se machuca. Desta vez, Kylo tem certeza de que fez algo ruim e tenta ser um pouco cuidadoso. Mas, devido às suas más habilidades de sabre, ele bate no elefante e tem certeza absoluta de que está com problemas. Ele se torna extremamente cuidadoso depois disso, e só bate em seu pai de propósito, como vimos em Force Awakens !!
Todo esse processo de aprender com o seu erro pode ser imitado com equações, onde a sensação de fazer algo errado é representada por um erro ou custo. Esse processo de identificação do que não fazer com um sabre é chamado de Classificação. Clustering e Classificação são os princípios absolutos do aprendizado de máquina. Vejamos a diferença entre eles.
Kylo diferenciou animais e sabre de luz porque seu cérebro decidiu que sabres de luz não podem se mover sozinhos e, portanto, são diferentes. A decisão foi baseada apenas nos objetos presentes (dados) e nenhuma ajuda ou aconselhamento externo foi fornecido. Em contraste com isso, Kylo diferenciou a importância de ter cuidado com o sabre de luz observando primeiro o que atingir um objeto pode fazer. A decisão não foi completamente baseada no sabre, mas no que poderia fazer com diferentes objetos. Em suma, houve alguma ajuda aqui.
Devido a essa diferença no aprendizado, o Clustering é chamado de método de aprendizado não supervisionado e a Classificação é chamada de método de aprendizado supervisionado. Eles são muito diferentes no mundo do aprendizado de máquina e geralmente são ditados pelo tipo de dados presentes. Obter dados rotulados (ou coisas que nos ajudam a aprender, como stormtrooper, elefante e gato no caso de Kylo) geralmente não é fácil e se torna muito complicado quando os dados a serem diferenciados são grandes. Por outro lado, aprender sem rótulos pode ter suas próprias desvantagens, como não saber quais são os títulos dos rótulos. Se Kylo aprendesse a tomar cuidado com o sabre sem nenhum exemplo ou ajuda, ele não saberia o que faria. Ele apenas saberia que isso não deveria ser feito. É uma analogia esfarrapada, mas você entendeu!
Estamos apenas começando com o Machine Learning. A classificação em si pode ser a classificação de números contínuos ou a classificação de rótulos. Por exemplo, se o Kylo tivesse que classificar qual é a altura de cada stormtrooper, haveria muitas respostas, porque as alturas podem ser 5,0, 5,01, 5,011 etc. etc. Mas uma classificação simples, como tipos de sabres de luz (vermelho, azul e verde) teria respostas muito limitadas. De fato, eles podem ser representados com números simples. Vermelho pode ser 0, Azul pode ser 1 e Verde pode ser 2.
Se você conhece matemática básica, sabe que 0,1,2 e 5.1,5.01,5.011 são diferentes e são chamados de números discretos e contínuos, respectivamente. A classificação de números discretos é chamada de regressão logística e a classificação de números contínuos é chamada de regressão. A regressão logística também é conhecida como classificação categórica; portanto, não se confunda quando você ler este termo em outro lugar
Esta foi uma introdução muito básica ao Machine Learning. Vou abordar o lado estatístico no meu próximo post. Entre em contato se precisar de correções :)
Segunda parte postada aqui .
É a atribuição de classes predefinidas a novas observações , com base no aprendizado de exemplos.
É uma das principais tarefas do aprendizado de máquina.
Embora popularmente descartado como "classificação não supervisionada", é bem diferente.
Ao contrário do que muitos aprendizes de máquina ensinam, não se trata de atribuir "classes" a objetos, mas sem tê-las predefinidas. Essa é a visão muito limitada de pessoas que fizeram muita classificação; um exemplo típico de se você tem um martelo (classificador), tudo parece um prego (problema de classificação) para você . Mas também é por isso que as pessoas da classificação não conseguem entender o cluster.
Em vez disso, considere isso como descoberta de estrutura . A tarefa do agrupamento em cluster é encontrar uma estrutura (por exemplo, grupos) em seus dados que você não conhecia antes . O armazenamento em cluster foi bem-sucedido se você aprendeu algo novo. Falhou, se você tivesse apenas a estrutura que já conhecia.
A análise de cluster é uma tarefa importante da mineração de dados (e o patinho feio no aprendizado de máquina, portanto, não ouça os alunos de máquina descartando o cluster).
Isso foi repetido na literatura, mas o aprendizado não supervisionado é obrigatório . Não existe, mas é um oxímoro como "inteligência militar".
Ou o algoritmo aprende com exemplos (então é "aprendizado supervisionado") ou não. Se todos os métodos de armazenamento em cluster estiverem "aprendendo", calcular o mínimo, o máximo e a média de um conjunto de dados também será "aprendizado não supervisionado". Então qualquer cálculo "aprendeu" sua saída. Assim, o termo "aprendizado não supervisionado" é totalmente sem sentido , significa tudo e nada.
Alguns algoritmos de "aprendizado não supervisionado" se enquadram na categoria de otimização . Por exemplo, k-means é uma otimização de mínimos quadrados. Esses métodos estão espalhados por todas as estatísticas, então acho que não precisamos rotulá-los de "aprendizado não supervisionado", mas, em vez disso, devemos continuar a chamá-los de "problemas de otimização". É mais preciso e mais significativo. Existem muitos algoritmos de agrupamento que não envolvem otimização e que não se encaixam bem nos paradigmas de aprendizado de máquina. Então pare de apertá-los lá sob o guarda-chuva "aprendizado não supervisionado".
Há algum "aprendizado" associado ao armazenamento em cluster, mas não é o programa que aprende. É o usuário que deve aprender coisas novas sobre seu conjunto de dados.
Ao agrupar em cluster, você pode agrupar dados com as propriedades desejadas, como o número, a forma e outras propriedades dos clusters extraídos. Enquanto, na classificação, o número e a forma dos grupos são fixos. A maioria dos algoritmos de cluster fornece o número de clusters como parâmetro. No entanto, existem algumas abordagens para descobrir o número apropriado de clusters.
Primeiro de tudo, como muitas respostas afirmam aqui: a classificação é aprendizado supervisionado e o agrupamento não é supervisionado. Isso significa:
A classificação precisa de dados rotulados para que os classificadores possam ser treinados nesses dados e, depois disso, comece a classificar novos dados não vistos com base no que ele conhece. O aprendizado não supervisionado, como clustering, não usa dados rotulados, e o que realmente faz é descobrir estruturas intrínsecas nos dados, como grupos.
Outra diferença entre as duas técnicas (relacionada à anterior), é o fato de a classificação ser uma forma de problema de regressão discreta, em que a saída é uma variável dependente categórica. Enquanto a saída do clustering produz um conjunto de subconjuntos chamados grupos. A maneira de avaliar esses dois modelos também é diferente pelo mesmo motivo: na classificação, muitas vezes é necessário verificar a precisão e a rechamada, coisas como sobreajuste e falta de adequação, etc. Essas coisas dirão o quão bom é o modelo. Mas, em clustering, você geralmente precisa da visão e do especialista para interpretar o que encontra, porque não sabe que tipo de estrutura você possui (tipo de grupo ou cluster). É por isso que o cluster pertence à análise exploratória de dados.
Finalmente, eu diria que os aplicativos são a principal diferença entre ambos. A classificação, como a palavra diz, é usada para discriminar instâncias que pertencem a uma classe ou outra, por exemplo, um homem ou uma mulher, um gato ou um cachorro, etc. O agrupamento é frequentemente usado no diagnóstico de doenças médicas, descoberta de padrões, etc.
Classificação : prever resultados em uma saída discreta => mapear variáveis de entrada em categorias discretas
Casos de uso populares:
Classificação de e-mail: spam ou não spam
Empréstimo de sanção ao cliente: Sim, se ele puder pagar à EMI pelo valor do empréstimo sancionado. Não, se ele não puder
Identificação de células tumorais de câncer: é crítica ou não crítica?
Análise de sentimentos de tweets: o tweet é positivo ou negativo ou neutro?
Classificação das notícias: classifique as notícias em uma das classes predefinidas - Política, Esportes, Saúde, etc.
Clustering : é a tarefa de agrupar um conjunto de objetos de forma que os objetos do mesmo grupo (chamado cluster) sejam mais semelhantes (em certo sentido) entre si do que os de outros grupos (clusters)
Casos de uso populares:
Marketing: descubra segmentos de clientes para fins de marketing
Biologia: Classificação entre diferentes espécies de plantas e animais
Bibliotecas: agrupando diferentes livros com base em tópicos e informações
Seguros: Reconheça os clientes, suas políticas e identifique as fraudes
Planejamento da cidade: crie grupos de casas e estude seus valores com base em sua localização geográfica e outros fatores.
Estudos sobre terremotos: identificar zonas perigosas
Referências:
Classificação - Prevê rótulos de classe categóricos - Classifica dados (constrói um modelo) com base em um conjunto de treinamento e os valores (rótulos de classe) em um atributo de rótulo de classe - Usa o modelo na classificação de novos dados
Cluster: uma coleção de objetos de dados - Semelhantes entre si no mesmo cluster - Diferente dos objetos em outros clusters
O agrupamento visa encontrar grupos nos dados. "Cluster" é um conceito intuitivo e não possui uma definição matematicamente rigorosa. Os membros de um cluster devem ser semelhantes entre si e diferentes dos membros de outros clusters. Um algoritmo de cluster opera em um conjunto de dados não rotulado Z e produz uma partição nele.
Para Classes e Class Labels, class contém objetos semelhantes, enquanto objetos de diferentes classes são diferentes. Algumas classes têm um significado claro e, no caso mais simples, são mutuamente exclusivas. Por exemplo, na verificação de assinatura, a assinatura é genuína ou forjada. A classe verdadeira é uma das duas, não importa que não consigamos adivinhar corretamente a partir da observação de uma assinatura específica.
O clustering é um método de agrupar objetos de maneira que objetos com recursos semelhantes se reúnam e objetos com recursos diferentes se separem. É uma técnica comum para análise de dados estatísticos usada em aprendizado de máquina e mineração de dados.
Classificação é um processo de categorização em que os objetos são reconhecidos, diferenciados e compreendidos com base no conjunto de dados de treinamento. A classificação é uma técnica de aprendizado supervisionado, onde um conjunto de treinamento e observações definidas corretamente estão disponíveis.
Do livro Mahout in Action, e acho que explica muito bem a diferença:
Os algoritmos de classificação estão relacionados, mas ainda bem diferentes, aos algoritmos de cluster, como o algoritmo k-means.
Os algoritmos de classificação são uma forma de aprendizado supervisionado, em oposição ao aprendizado não supervisionado, o que acontece com os algoritmos de agrupamento.
Um algoritmo de aprendizado supervisionado é aquele que fornece exemplos que contêm o valor desejado de uma variável de destino. Os algoritmos não supervisionados não recebem a resposta desejada, mas devem encontrar algo plausível por si mesmos.
Um revestimento para classificação:
Classificação de dados em categorias predefinidas
Um revestimento para cluster:
Agrupando dados em um conjunto de categorias
Diferença chave:
A classificação é pegar dados e colocá-los em categorias predefinidas. No cluster, o conjunto de categorias em que você deseja agrupar os dados não é conhecido de antemão.
Conclusão:
Eu escrevi um longo post sobre o mesmo tópico que você pode encontrar aqui:
Existem duas definições na mineração de dados "Supervisionado" e "Não supervisionado". Quando alguém diz ao computador, algoritmo, código, ... que isso é como uma maçã e como laranja, isso é aprendizado supervisionado e uso de aprendizado supervisionado (como tags para cada amostra em um conjunto de dados) para classificar o dados, você obterá classificação. Mas, por outro lado, se você deixar o computador descobrir o que é o quê e diferenciar os recursos de um determinado conjunto de dados, aprendendo de fato sem supervisão, para classificar o conjunto de dados, isso seria chamado de agrupamento. Nesse caso, os dados que são alimentados no algoritmo não possuem tags e o algoritmo deve descobrir classes diferentes.
O Machine Learning ou AI é amplamente percebido pela tarefa que realiza / realiza.
Na minha opinião, pensando em Clustering e Classificação na noção de tarefa que eles realizam pode realmente ajudar a entender a diferença entre os dois.
Agrupar é agrupar coisas e Classificação é, tipo, rotular as coisas.
Vamos supor que você esteja em um salão de festas onde todos os homens estejam de terno e as mulheres de vestidos.
Agora, você faz algumas perguntas ao seu amigo:
Q1: Ei, você pode me ajudar a agrupar pessoas?
As possíveis respostas que seu amigo pode dar são:
1: Ele pode agrupar pessoas com base em gênero, masculino ou feminino
2: Ele pode agrupar pessoas com base em suas roupas, 1 vestindo ternos e outros vestidos
3: Ele pode agrupar pessoas com base na cor de seus cabelos
4: Ele pode agrupar pessoas com base em sua faixa etária, etc. etc. etc.
Existem várias maneiras pelas quais seu amigo pode concluir esta tarefa.
Obviamente, você pode influenciar o processo de tomada de decisão fornecendo informações extras, como:
Você pode me ajudar a agrupar essas pessoas com base no sexo (ou faixa etária, cor do cabelo ou vestido etc.)
Q2:
Antes do segundo trimestre, você precisa fazer um pré-trabalho.
Você tem que ensinar ou informar seu amigo para que ele possa tomar uma decisão informada. Então, digamos que você disse ao seu amigo que:
Pessoas com cabelos longos são mulheres.
Pessoas com cabelo curto são homens.
Q2 Agora, você aponta para uma pessoa com cabelos longos e pergunta ao seu amigo - é um homem ou uma mulher?
A única resposta que você pode esperar é: Mulher.
Claro, pode haver homens com cabelos compridos e mulheres com cabelos curtos na festa. Mas, a resposta está correta com base no aprendizado que você forneceu ao seu amigo. Você pode melhorar ainda mais o processo ensinando mais ao seu amigo sobre como diferenciar os dois.
No exemplo acima,
Q1 representa a tarefa que o clustering realiza.
No cluster, você fornece os dados (pessoas) ao algoritmo (seu amigo) e solicita que agrupe os dados.
Agora, cabe ao algoritmo decidir qual é a melhor maneira de agrupar? (Sexo, cor ou faixa etária).
Novamente, você pode definitivamente influenciar a decisão tomada pelo algoritmo, fornecendo entradas extras.
Q2 representa a tarefa que a Classificação realiza.
Lá, você fornece ao seu algoritmo (seu amigo) alguns dados (Pessoas), chamados de dados de treinamento, e o fez aprender quais dados correspondem a qual rótulo (masculino ou feminino). Em seguida, aponte seu algoritmo para certos dados, chamados de dados de teste, e peça para determinar se é masculino ou feminino. Quanto melhor o seu ensino, melhor a previsão.
E o pré-trabalho no segundo trimestre ou na classificação nada mais é do que apenas treinar seu modelo para que ele possa aprender a se diferenciar. No clustering ou no Q1, esse pré-trabalho faz parte do agrupamento.
Espero que isso ajude alguém.
obrigado
Classificação - Um conjunto de dados pode ter diferentes grupos / classes. vermelho, verde e preto. A classificação tentará encontrar regras que as dividam em diferentes classes.
Armazenamento em cluster - se um conjunto de dados não tiver nenhuma classe e você desejar colocá-los em alguma classe / agrupamento, você fará o armazenamento em cluster. Os círculos roxos acima.
Se as regras de classificação não forem boas, você terá uma classificação incorreta nos testes ou suas regras não serão corretas o suficiente.
se o agrupamento não for bom, você terá muitos outliers, por exemplo. pontos de dados que não podem cair em nenhum cluster.
As principais diferenças entre classificação e cluster são: Classificação é o processo de classificação dos dados com a ajuda de rótulos de classe. Por outro lado, o clustering é semelhante à classificação, mas não há rótulos de classe predefinidos. A classificação é voltada para o aprendizado supervisionado. Por outro lado, o agrupamento também é conhecido como aprendizado não supervisionado. A amostra de treinamento é fornecida no método de classificação, enquanto no caso de armazenamento em cluster os dados de treinamento não são fornecidos.
Espero que isso ajude!
Acredito que a classificação está classificando registros em um conjunto de dados em classes predefinidas ou mesmo definindo classes em movimento. Eu vejo isso como pré-requisito para qualquer mineração de dados valiosa, gosto de pensar em aprendizado não supervisionado, ou seja, não se sabe o que está procurando enquanto a mineração de dados e a classificação são um bom ponto de partida.
O agrupamento do outro lado se enquadra no aprendizado supervisionado, ou seja, sabemos quais parâmetros procurar, a correlação entre eles e os níveis críticos. Eu acredito que requer alguma compreensão de estatística e matemática