Aprendizado supervisionado

1) Um humano constrói um classificador com base na entrada e saída de dados
2) Esse classificador é treinado com um conjunto de dados de treinamento
3) Esse classificador é testado com um conjunto de dados de teste
4) Implantação se a saída for satisfatória

Para ser usado quando: "Eu sei como classificar esses dados, só preciso que você (o classificador) os classifique".

Ponto do método: Classificar rótulos ou produzir números reais

Aprendizagem não supervisionada

1) Um humano constrói um algoritmo com base nos dados de entrada
2) Esse algoritmo é testado com um conjunto de dados de teste (no qual o algoritmo cria o classificador)
3) Implantação se o classificador for satisfatório

Para ser usado quando "Não faço ideia de como classificar esses dados, você (o algoritmo) pode criar um classificador para mim?"

Ponto do método: classificar rótulos ou prever (PDF)

Aprendizagem por reforço

1) Um humano constrói um algoritmo com base nos dados de entrada
2) Esse algoritmo apresenta um estado dependente dos dados de entrada nos quais um usuário recompensa ou pune o algoritmo através da ação que o algoritmo executou, isso continua ao longo do tempo
3) Esse algoritmo aprende com a recompensa / punição e se atualiza, isso continua
4) Está sempre em produção, precisa aprender dados reais para poder apresentar ações dos estados

Para ser usado quando: "Eu não tenho idéia de como classificar esses dados, você pode classificá-los e eu darei uma recompensa se estiver correta ou punirei você se não estiver".

É esse o tipo de fluxo dessas práticas, ouço muito sobre o que elas fazem, mas as informações práticas e exemplares são terrivelmente pequenas!

— Karl Morrison
fonte

Gostei muito da maneira como você apresentou sua pergunta. Eu encontrei esta resposta útil: stats.stackexchange.com/a/522/92255

— Ashesh Kumar Singh

3

Esta é uma introdução compacta muito agradável às idéias básicas!

Aprendizagem por Reforço

Acho que a descrição de seu caso de uso do aprendizado por reforço não está exatamente correta. O termo classificação não é apropriado. Uma descrição melhor seria:

Eu não sei como agir neste ambiente , você pode encontrar um bom comportamento e, enquanto isso, eu darei um feedback .

Em outras palavras, o objetivo é antes controlar algo bem, do que classificar algo bem.

Entrada

O ambiente definido por
- todos os estados possíveis
- possíveis ações nos estados
A função de recompensa dependente do estado e / ou ação

Algoritmo

O agente
- está em um estado
- toma uma ação para transferir para outro estado
- recebe uma recompensa pela ação no estado

Saída

O agente deseja encontrar uma política ideal que maximize a recompensa

— elcombato
fonte

2

Isenção de responsabilidade: não sou especialista e nunca fiz nada com o aprendizado por reforço (ainda), portanto qualquer feedback será bem-vindo ...

Aqui está uma resposta que adiciona pequenas notas matemáticas à sua lista e alguns pensamentos diferentes sobre quando usar o quê. Espero que a enumeração seja auto-explicativa o suficiente:

Supervisionado

Temos dados $\mathcal{D} = \{(\boldsymbol{x}_0,y_0), (\boldsymbol{x}_1,y_1), \ldots, (\boldsymbol{x}_n,y_n)\}$
Procuramos um modelo que minimize alguma medida de perda / custo para todos os pontos $g$ $L(y_i, g(\boldsymbol{x}_i))$ $0 \leq i < l$
Avaliamos o modelo calculando a perda / custo para o restante dos dados ( ), a fim de ter uma idéia de quão bem o modelo generaliza $L$ $l \leq i \leq n$

Podemos dar exemplos, mas não podemos dar um algoritmo para ir da entrada à saída

Configuração para classificação e regressão

Não supervisionado

Temos dados $\mathcal{D} = \{\boldsymbol{x}_0, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n\}$
Procuramos um modelo que nos dê algumas informações sobre nossos dados. $g$
Temos pouca ou nenhuma medida para dizer se fizemos algo útil / interessante

Temos alguns dados, mas não temos ideia de onde começar a procurar coisas úteis / interessantes

Configuração para clustering, redução de dimensionalidade, localização de fatores ocultos, modelos generativos etc.

Reforço

Não temos dados
Construímos um modelo que gera dados (geralmente chamados de ações), que podem ser baseados em medidas e / ou ações anteriores, na tentativa de maximizar alguma medida de recompensa , que geralmente não é conhecido pelo modelo (ele também precisa ser aprendido). $g$ $\boldsymbol{x}_i$ $R(\boldsymbol{x}_i)$
Nós avaliamos por meio da função de recompensa depois de algum tempo para aprender.

Não temos idéia de como fazer algo, mas podemos dizer se foi feito certo ou errado

Isso parece especialmente útil para tarefas de decisão sequenciais.

Referências:
Si, J., Barto, A., Powell, W. e Wunsch, D. (2004) Aprendizagem por reforço e sua relação com a aprendizagem supervisionada, no Manual de aprendizagem e programação dinâmica aproximada, John Wiley & Sons, Inc., Hoboken, NJ, EUA. doi: 10.1002 / 9780470544785.ch2

— Tsjolder
fonte

Aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço: princípios básicos do fluxo de trabalho