No contexto do aprendizado de máquina, qual é a diferença entre
- aprendizado não supervisionado
- aprendizado supervisionado e
- aprendizagem semi-supervisionada?
E quais são algumas das principais abordagens algorítmicas a serem observadas?
No contexto do aprendizado de máquina, qual é a diferença entre
E quais são algumas das principais abordagens algorítmicas a serem observadas?
Respostas:
Geralmente, os problemas do aprendizado de máquina podem ser considerados variações na estimativa de funções para classificação, previsão ou modelagem.
No aprendizado supervisionado, é fornecido com entrada ( , , ...,) e saída ( , , ...,) e é desafiado a encontrar uma função que aproxime esse comportamento de maneira generalizável. O resultado pode ser um rótulo de classe (na classificação) ou um número real (em regressão) - estas são a "supervisão" na aprendizagem supervisionada.
No caso de aprendizado não supervisionado , no caso base, você recebe entradas , , ..., mas nem as saídas de destino nem as recompensas de seu ambiente são fornecidas. Com base no problema (classificar ou prever) e seu conhecimento do espaço amostrado, você pode usar vários métodos: estimativa de densidade (estimando um PDF subjacente para previsão), k-means clustering (classificação de dados reais não rotulados), k- modos de agrupamento (classificação de dados categóricos não rotulados), etc.
A aprendizagem semi-supervisionada envolve estimativa de função em dados rotulados e não-rotulados. Essa abordagem é motivada pelo fato de que os dados rotulados costumam ser caros para gerar, enquanto os dados não rotulados geralmente não são. O desafio aqui envolve principalmente a questão técnica de como tratar dados misturados dessa maneira. Consulte esta Pesquisa de literatura de aprendizado semi-supervisionado para obter mais detalhes sobre métodos de aprendizado semi-supervisionados.
Além desses tipos de aprendizado, existem outros, como o aprendizado por reforço, no qual o método de aprendizado interage com seu ambiente, produzindo ações , ,. . .. que produzem recompensas ou punições , , ...
Aprendizagem não supervisionada
O aprendizado não supervisionado é quando você não possui dados rotulados disponíveis para treinamento. Exemplos disso são frequentemente métodos de agrupamento.
Aprendizado supervisionado
Nesse caso, seus dados de treinamento existem fora dos dados rotulados. O problema que você resolve aqui costuma prever os rótulos para pontos de dados sem rótulo.
Aprendizagem Semi-Supervisionada
Nesse caso, os dados rotulados e os não rotulados são usados. Por exemplo, isso pode ser usado em redes de crenças profundas, nas quais algumas camadas estão aprendendo a estrutura dos dados (não supervisionada) e uma camada é usada para fazer a classificação (treinada com dados supervisionados)
Eu não acho que supervisionado / não supervisionado é a melhor maneira de pensar sobre isso. Para mineração de dados básica, é melhor pensar no que você está tentando fazer. Existem quatro tarefas principais:
predição. se você está prevendo um número real, isso é chamado de regressão. se você estiver prevendo um número ou classe inteira, isso será chamado de classificação.
modelagem. modelagem é o mesmo que previsão, mas o modelo é compreensível por humanos. Redes neurais e máquinas de vetores de suporte funcionam muito bem, mas não produzem modelos compreensíveis [1]. as árvores de decisão e a regressão linear clássica são exemplos de modelos fáceis de entender.
semelhança. se você está tentando encontrar grupos naturais de atributos, isso é chamado de análise fatorial. se você está tentando encontrar grupos naturais de observações, isso é chamado de agrupamento.
Associação. é muito parecido com correlação, mas para enormes conjuntos de dados binários.
[1] Aparentemente, o Goldman Sachs criou toneladas de grandes redes neurais para previsão, mas ninguém as entendeu, então elas tiveram que escrever outros programas para tentar explicar as redes neurais.