Qual é exatamente a diferença entre aprendizado supervisionado e não supervisionado?


28

Estou tentando entender os métodos de agrupamento.

O que eu acho que entendi:

  1. No aprendizado supervisionado, os dados das categorias / etiquetas aos quais é atribuído são conhecidos antes do cálculo. Portanto, os rótulos, classes ou categorias estão sendo usados ​​para "aprender" os parâmetros realmente significativos para esses clusters.

  2. No aprendizado não supervisionado, os conjuntos de dados são atribuídos a segmentos, sem que os clusters sejam conhecidos.

Isso significa que, se eu nem souber quais parâmetros são cruciais para uma segmentação, prefiro o aprendizado supervisionado?


2
Observe que o agrupamento não é o único tipo de aprendizado não supervisionado.
George

11
O aprendizado supervisionado é preferido quando os dados de treinamento rotulados estão disponíveis. Você pode particionar seus dados usando métodos supervisionados ou não supervisionados. A principal diferença é que, na configuração supervisionada, você conhece a segmentação CORRETA para seus dados de treinamento.
26412 Nick

Respostas:


23

A diferença é que, no aprendizado supervisionado, as "categorias", "classes" ou "rótulos" são conhecidas. No aprendizado não supervisionado, eles não são, e o processo de aprendizado tenta encontrar "categorias" apropriadas. Nos dois tipos de aprendizado, todos os parâmetros são considerados para determinar quais são os mais apropriados para executar a classificação.

Se você escolheu supervisionado ou não supervisionado, deve se basear em saber ou não quais são as "categorias" dos seus dados. Se você souber, use aprendizado supervisionado. Se você não souber, use sem supervisão.

Como você possui um grande número de parâmetros e não sabe quais são relevantes, poderá usar algo como a análise de componentes principais para ajudar a determinar os relevantes.


13

Observe que existem mais de 2 graus de supervisão. Por exemplo, consulte as páginas 24-25 (6-7) da tese de doutorado de Christian Biemann, Processamento de linguagem natural sem supervisão e sem conhecimento no Paradigma de Descoberta de Estrutura, 2007.

A tese identifica quatro graus: supervisionado, semi-supervisionado, fracamente supervisionado e não supervisionado, e explica as diferenças, em um contexto de processamento de linguagem natural. Aqui estão as definições relevantes:

  • Em sistemas supervisionados , os dados apresentados em um algoritmo de aprendizado de máquina são totalmente rotulados. Isso significa: todos os exemplos são apresentados com uma classificação que a máquina deve reproduzir. Para isso, um classificador é aprendido com os dados, o processo de atribuição de rótulos a instâncias ainda não vistas é chamado de classificação.
  • Em sistemas semi-supervisionados , a máquina também pode levar em consideração dados não rotulados. Devido a uma base de dados maior, os sistemas semi-supervisionados geralmente superam seus equivalentes supervisionados usando os mesmos exemplos rotulados. A razão para essa melhoria é que mais dados não rotulados permitem que o sistema modele a estrutura inerente dos dados com mais precisão.
  • O bootstrapping, também chamado de auto-treinamento, é uma forma de aprendizado projetada para usar ainda menos exemplos de treinamento, portanto, às vezes chamada de fraca supervisão . O bootstrapping começa com alguns exemplos de treinamento, treina um classificador e usa exemplos que se pensa serem positivos, conforme produzido por esse classificador para reciclagem. À medida que o conjunto de exemplos de treinamento aumenta, o classificador melhora, desde que não haja muitos exemplos negativos classificados como positivos, o que pode levar à deterioração do desempenho.
  • Os sistemas não supervisionados não recebem nenhum exemplo de treinamento e conduzem o agrupamento. Essa é a divisão das instâncias de dados em vários grupos. Os resultados dos algoritmos de agrupamento são orientados a dados, portanto, mais 'naturais' e mais adequados à estrutura subjacente dos dados. Essa vantagem também é sua principal desvantagem: sem a possibilidade de dizer à máquina o que fazer (como na classificação), é difícil julgar a qualidade dos resultados do agrupamento de maneira conclusiva. Mas a ausência de preparação de exemplos de treinamento torna o paradigma não supervisionado muito atraente.

0

No aprendizado supervisionado, as classes são conhecidas antecipadamente e também seus tipos, por exemplo, duas classes de bons e maus clientes. Quando um novo objeto (cliente) é baseado em seus atributos, o cliente pode ser atribuído a uma classe de clientes ruim ou boa.

No aprendizado não supervisionado, os grupos / classes ainda não são conhecidos, temos objetos (clientes); portanto, agrupe os clientes com hábitos de compra semelhantes; portanto, grupos diferentes são formados pelos clientes, ou seja, ainda não são conhecidos com base em hábitos de compra semelhantes.


0

No aprendizado supervisionado, a saída (variável dependente) depende da variável de entrada (variável independente). Em algum conjunto de supervisões fornecidas, o respondente tenta calcular o objetivo desejado.

No aprendizado não supervisionado, não há supervisão; portanto, o sistema tenta se adaptar à situação e aprende manualmente com base em alguma medida.

por exemplo: Professor em sala de aula - supervisão - aprendizado supervisionado Um auto-estudo eletivo na aula - Sem supervisão Aprendizado Não Supervisionado

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.