Qual é a diferença entre aprendizado e inferência?


20

Os documentos de pesquisa de aprendizado de máquina geralmente tratam o aprendizado e a inferência como duas tarefas separadas, mas não está claro para mim qual é a distinção. Em este livro , por exemplo, eles usam estatística Bayesiana para ambos os tipos de tarefas, mas não fornecem uma motivação para essa distinção. Tenho várias idéias vagas sobre o que poderia ser, mas gostaria de ver uma definição sólida e talvez também refutações ou extensões de minhas idéias:

  • A diferença entre inferir os valores de variáveis ​​latentes para um determinado ponto de dados e aprender um modelo adequado para os dados.
  • A diferença entre extrair variações (inferência) e aprender as invariâncias, de modo a poder extrair variações (aprendendo a dinâmica do espaço / processo / mundo de entrada).
  • A analogia neurocientífica pode ser potenciação / depressão a curto prazo (traços de memória) vs potenciação / depressão a longo prazo.

4
Não tenho certeza se isso ajuda, mas nas estatísticas uma distinção é entre se você quer pensar em aprendizagem como inferência (principalmente Bayes) ou como estimativa (principalmente Frequentista). Para o primeiro, aprender sobre tudo - variáveis ​​latentes, parâmetros, previsões, modelos - é uma inferência (que retorna uma distribuição). Para o último, alguns problemas de aprendizagem podem ser uma inferência e outros um problema de estimativa (que retorna uma estimativa e um intervalo de incerteza motivado pela amostragem).
conjugateprior

5
"Aprendizagem" é apenas uma metáfora evocativa para o processo de treinamento de um algoritmo de aprendizado de máquina. Eu não acho que haja muito insight a ser obtido aqui.
Sycorax diz Restabelecer Monica


1
@Winks Você leu a questão ligada em tudo ? Nenhuma das respostas faz a distinção que estou pedindo explícita.
Lenar Hoyt 03/04

1
@conjugateprior No aprendizado de máquina, ninguém diria que "aprender tudo - variáveis ​​latentes, parâmetros, previsões, modelos - é uma inferência". Aprendizado e inferência são considerados totalmente separados, embora ambos possam produzir distribuições.
31516 Neil G

Respostas:


11

Concordo com a resposta de Neil G, mas talvez esse fraseado alternativo também ajude:

Considere a configuração de um modelo simples de mistura gaussiana. Aqui, podemos pensar nos parâmetros do modelo como o conjunto de componentes gaussianos do modelo de mistura (cada uma de suas médias e variações e o peso de cada um na mistura).

Dado um conjunto de parâmetros do modelo, a inferência é o problema de identificar qual componente provavelmente gerou um único exemplo, geralmente na forma de uma "responsabilidade" para cada componente. Aqui, as variáveis ​​latentes são apenas o identificador único para qual componente gerou o vetor determinado, e estamos deduzindo qual componente provavelmente foi. (Nesse caso, a inferência é simples, embora em modelos mais complexos ela se torne bastante complicada.)

O aprendizado é o processo de, dado um conjunto de amostras do modelo, identificar os parâmetros do modelo (ou uma distribuição sobre os parâmetros do modelo) que melhor se ajustam aos dados fornecidos: escolha dos meios, variações e ponderações dos gaussianos.

O algoritmo de aprendizado Expectativa-Maximização pode ser considerado como a realização de inferência para o conjunto de treinamento, aprendendo os melhores parâmetros, dada essa inferência, e depois repetindo. A inferência é frequentemente usada no processo de aprendizado dessa maneira, mas também é de interesse independente, por exemplo, escolher qual componente gerou um dado ponto de dados em um modelo de mistura gaussiano, para decidir sobre o estado oculto mais provável em um modelo de Markov oculto, imputar valores ausentes em um modelo gráfico mais geral, ....


1
E uma pequena ressalva de que se pode escolher dividir as coisas em aprendizado e inferência dessa maneira, mas também se pode escolher fazer todo o lote como inferência: stats.stackexchange.com/questions/180582/...
conjugateprior

Por que tantas linhas? Eu quero ver uma resposta simples que os diferencie em uma e duas frases. Além disso, nem todos estão familiarizados com GMMs ou EM.
nbro 19/01

9

Inferência é escolher uma configuração com base em uma única entrada. Aprender é escolher parâmetros com base em alguns exemplos de treinamento.

Na estrutura do modelo baseado em energia (uma maneira de observar quase todas as arquiteturas de aprendizado de máquina), a inferência escolhe uma configuração para minimizar uma função de energia enquanto mantém os parâmetros fixos; o aprendizado escolhe os parâmetros para minimizar a função de perda .

Como aponta o conjugado anterior, outras pessoas usam terminologia diferente para a mesma coisa. Por exemplo, Bishop, usa "inferência" e "decisão" para significar aprendizado e inferência, respectivamente. Inferência causal significa aprendizado. Mas, independentemente dos termos que você escolher, esses dois conceitos serão distintos.

A analogia neurológica é um padrão de disparo de neurônios é uma configuração; um conjunto de pontos fortes do link são os parâmetros.


@ MCB Eu ainda não sei o que você quer dizer com "variações". Invariâncias nem sequer é uma palavra no dicionário. Sim, existem muitos algoritmos de aprendizado que dependem de uma configuração inferida como EM descrita na resposta de Dougal.
Neil G

@ MCB Eu também não entendo suas perguntas; talvez ajude a especificar um modelo de exemplo e seja específico sobre quais distribuições / variações / invariantes (?) você está falando.
Dougal

Obrigado por suas respostas. Talvez eu tenha entendido algo errado.
Lenar Hoyt 03/04

@ NeilG Acredito que essa terminologia seja usada principalmente no trabalho de visão de ML, em que as decisões de classificação devem ser 'invariantes' à tradução, rotação, redimensionamento de objetos etc. Não é possível encontrar uma boa referência curta, mas existe: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior

@conjugateprior Tive a sensação de que ele estava se metendo, mas queria ver se ele deixaria sua pergunta clara.
Neil G

4

Parece confusão clássica de linguagem interdisciplinar. O PO parece estar usando terminologia semelhante à neurociência, onde os dois termos em questão podem ter conotações diferentes. Mas como o Cross Validated geralmente lida com estatísticas e aprendizado de usinagem, tentarei responder à pergunta com base no uso comum desses termos nesses campos.

Na estatística clássica, a inferência é simplesmente o ato de pegar o que você sabe sobre uma amostra e fazer uma declaração matemática sobre a população da qual ela é (esperançosamente) representativa. Do livro-texto canônico de Casella e Berger (2002): "O assunto da teoria das probabilidades é a base sobre a qual todas as estatísticas são construídas ... através desses modelos, os estatísticos são capazes de extrair inferências sobre populações, inferências baseadas no exame de apenas uma parte do todo ". Portanto, na estatística, a inferência está especificamente relacionada a valores-p, estatísticas de teste e distribuições de amostras, etc.

Quanto ao aprendizado, acho que essa tabela do All of Statistics (2003) de Wasserman pode ser útil:

insira a descrição da imagem aqui


Isso discorda de muitos outros livros didáticos, incluindo o livro de Bishop mencionado nos comentários. Classificação é um tipo de aprendizado supervisionado quando as variáveis-alvo são categorias. A palavra "estimativa" sozinha é vaga: geralmente queremos dizer "estimativa de densidade" ou "estimativa de parâmetros" ou "estimativa seqüencial" ou "estimativa de máxima verossimilhança".
Neil G

1
Além disso, a rede Bayes não é apenas um gráfico acíclico direcionado! É um tipo de dag cujos nós representam proposições e cujas bordas representam dependências probabilísticas. Ele especifica relacionamentos de independência condicional.
Neil G

1
@NeilG Bastante. A tradução mais próxima estatísticas provavelmente seria "modelo de equações estruturais"
conjugateprior

2
E em uma quantidade desanimadora de estatísticas, deve haver duas linhas sobre dados: CS: dados de treinamento, Estatísticas: dados. CS: dados de teste, estatística: wut?
conjugateprior

Stat 101: wut = outra amostra (espero aleatório) de sua população ...
Zoë Clark

-1

É estranho que ninguém mais tenha mencionado isso, mas você pode deduzir apenas nos casos em que você tem uma distribuição de probabilidade. Aqui para citar o Wiki, que cita o dicionário Oxford:

Inferência estatística é o processo de usar a análise de dados para deduzir propriedades de uma distribuição de probabilidade subjacente (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

No caso de redes neurais tradicionais, k-NN ou SVMs de baunilha, você não tem densidade de probabilidade para estimar, nem suposições sobre qualquer densidade; portanto, não há inferência estatística lá. Apenas treinamento / aprendizado. No entanto, para a maioria dos procedimentos estatísticos (todos?), Você pode usar tanto a inferência quanto o aprendizado, uma vez que esses procedimentos possuem algumas suposições sobre a distribuição da população em questão.


Isto está errado. De qualquer forma, você pode interpretar redes neurais como produzindo uma distribuição, se desejar. Ver, por exemplo, Amari 1998.
Neil G

Não está errado, ou especifique. Você pode interpretar, mas originalmente não existe essa interpretação.
SWIM S.

É errado, porque as pessoas usam o termo inferência com modelos como autoenciders.
Neil G

Então, está errado porque algum grupo de pessoas usa o termo incorretamente? Ou porque eles têm alguma interpretação probabilística para seus NNs (eu não estou profundamente familiarizado com autoencoders)? Eu justifiquei logicamente por que um termo é diferente do outro. Portanto, dada a definição acima, vejo que aqueles que usam o termo inferência com NNs, k-NNs ou SVMs (a menos que com interpretação probabilística) estão abusando bastante da notação.
SWIM S.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.