Como o princípio Navalha da Occam funcionará no aprendizado de máquina


11

A pergunta a seguir exibida na imagem foi feita durante um dos exames recentemente. Não sei se entendi corretamente o princípio Navalha de Occam ou não. De acordo com as distribuições e limites de decisão dados na pergunta e seguindo o Navalha de Occam, o limite de decisão B em ambos os casos deve ser a resposta. Porque, de acordo com o Navalha de Occam, escolha o classificador mais simples, que faz um trabalho decente em vez do complexo.

Alguém pode testemunhar se meu entendimento está correto e a resposta escolhida é apropriada ou não? Por favor, ajudem como eu sou apenas um iniciante em aprendizado de máquina

a questão


2
3.328 "Se um sinal não é necessário, então não faz sentido. Esse é o significado da navalha de Occam." Do Tractatus Logico-Philosophicus por Wittgenstein
Jorge Barrios

Respostas:


13

O princípio da navalha de Occam:

Tendo duas hipóteses (aqui, limites de decisão) que apresentam o mesmo risco empírico (aqui, erro de treinamento), uma breve explicação (aqui, um limite com menos parâmetros) tende a ser mais válida do que uma explicação longa.

No seu exemplo, A e B têm zero de erro de treinamento, portanto B (explicação mais curta) é o preferido.

E se o erro de treinamento não for o mesmo?

Se o limite A teve um erro de treinamento menor que B, a seleção se torna complicada. Precisamos quantificar "tamanho da explicação" igual a "risco empírico" e combinar as duas em uma função de pontuação; em seguida, proceda à comparação de A e B. Um exemplo seria o Critério de Informação de Akaike (AIC) que combina risco empírico (medido com resultado negativo). probabilidade logarítmica) e tamanho da explicação (medido com o número de parâmetros) em uma pontuação.

Como uma observação lateral, o AIC não pode ser usado para todos os modelos; também existem muitas alternativas para o AIC.

Relação com o conjunto de validação

Em muitos casos práticos, quando o modelo avança em direção a mais complexidade (explicação maior) para alcançar um erro de treinamento menor, o AIC e similares podem ser substituídos por um conjunto de validação (um conjunto no qual o modelo não é treinado). Paramos o progresso quando o erro de validação (erro do modelo no conjunto de validação) começa a aumentar. Dessa forma, encontramos um equilíbrio entre baixo erro de treinamento e breve explicação.


3

Occam Razor é apenas um sinônimo de diretor de parcimônia. (BEIJO, mantenha-o simples e estúpido.) A maioria dos algos funciona nesse princípio.

Na pergunta acima, é preciso pensar em projetar os limites separáveis ​​simples,

como na primeira figura, a resposta D1 é B. Como define a melhor linha que separa 2 amostras, como a é polinomial e pode terminar em excesso. (se eu tivesse usado o SVM, essa linha teria chegado)

Da mesma forma, na figura 2, a resposta D2 é B.


2

A navalha de Occam em tarefas de ajuste de dados:

  1. Primeira tentativa de equação linear
  2. Se (1) não ajuda muito - escolha um não linear com menos termos e / ou graus menores de variáveis.

D2

Bclaramente vence, porque é o limite linear que separa bem os dados. (O que é "agradavelmente" não posso definir atualmente. Você precisa desenvolver esse sentimento com a experiência). AA fronteira é altamente não linear, o que parece uma onda senoidal tremida.

D1

No entanto, não tenho certeza sobre este. Alimite é como um círculo e Bé estritamente linear. IMHO, para mim - a linha de fronteira não é um segmento de círculo nem um segmento de linha, - é uma curva parábola:

insira a descrição da imagem aqui

Então, eu opto por C:-)


Ainda não sei por que você quer uma linha intermediária para D1. O Navalha da Occam diz para usar a solução simples que funciona. Na ausência de mais dados, B é uma divisão perfeitamente válida que se ajusta aos dados. Se recebemos mais dados que sugerem uma curva maior para o conjunto de dados de B, então pude ver seu argumento, mas solicitar C vai contra o seu ponto (1), pois é um limite linear que funciona.
Delioth 7/03/19

Porque há muito espaço vazio da Blinha em direção ao conjunto de pontos circular esquerdo. Isso significa que qualquer novo ponto aleatório que chegue tem uma chance muito alta de ser atribuída ao cluster circular à esquerda e uma chance muito pequena de ser atribuída ao cluster à direita. Assim, a Blinha não é um limite ideal no caso de novos pontos aleatórios no plano. E você não pode ignorar a aleatoriedade dos dados, porque normalmente há sempre um deslocamento aleatório de pontos
Agnius Vasiliauskas

0

Não sei se entendi corretamente o princípio Navalha de Occam ou não.

Vamos primeiro abordar a navalha de Occam:

O barbeador de Occam afirma que "é mais provável que soluções mais simples sejam corretas que soluções complexas". - Wiki

Em seguida, vamos abordar sua resposta:

Porque, de acordo com o Navalha de Occam, escolha o classificador mais simples, que faz um trabalho decente em vez do complexo.

Isso está correto porque, no aprendizado de máquina, o ajuste excessivo é um problema. Se você escolher um modelo mais complexo, é mais provável que você classifique os dados de teste e não o comportamento real do seu problema. Isso significa que, quando você usa seu classificador complexo para fazer previsões em novos dados, é mais provável que seja pior que o classificador simples.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.