Programação probabilística vs ML “tradicional”

9

Eu estava navegando no repositório do Github para o Pymc e encontrei este notebook:

Inferência Variacional: Redes Neurais Bayesianas

O autor exalta as virtudes da programação bayesiana / probabilística, mas continua dizendo:

Infelizmente, quando se trata de problemas tradicionais de ML, como classificação ou regressão (não linear), a Programação Probabilística geralmente joga o segundo violino (em termos de precisão e escalabilidade) para abordagens mais algorítmicas, como a aprendizagem de conjuntos (por exemplo, florestas aleatórias ou árvores de regressão reforçadas por gradiente) .

Alguém poderia explicar:

Se esta afirmação é geralmente verdadeira
Por que essa afirmação é verdadeira

— RNs_Ghost
fonte

16

Geralmente é verdade em minha experiência pessoal como cientista de dados profissional.
É verdade na minha experiência pessoal, porque é o que observo na maioria das vezes. Se você está perguntando por que isso acontece dessa maneira, é por alguns motivos:
1. Atualmente, muitos algoritmos tradicionais de ML estão disponíveis "prontos para uso", incluindo métodos sofisticados de conjuntos, redes neurais, etc. Métodos probabilísticos ainda exigem soluções personalizadas, escritas em DSL como Stan ou diretamente em uma linguagem de programação de uso geral.
2. Atualmente, muitas pessoas que ingressam em ciência de dados vêm de origens de engenharia e ciências naturais, onde possuem fortes habilidades matemáticas e "algorítmicas", mas não têm tanta experiência ou intuição com modelagem de probabilidade. Não está no radar deles, e eles não estão tão confortáveis com os métodos e o software necessário para implementá-los.
3. Fazer uma previsão "difícil" a partir de um modelo probabilístico envolve a teoria da decisão formal ou de ondulação manual. Pesquisadores de IA e consultores estatísticos bem pagos sabem disso e o abraçam. Mas, para o cientista de dados de classificação geral, não é tão fácil recorrer ao seu gerente e começar a falar em termos de distribuições e probabilidades. A empresa (ou o sistema automatizado que você está construindo) só precisa de uma resposta maldita. A vida é muito mais fácil quando você para de equivocar sobre probabilidades e outras coisas; nesse caso, é melhor não se incomodar com elas em primeiro lugar.
4. A modelagem probabilística geralmente acaba sendo muito intensiva em termos computacionais, especialmente a modelagem bayesiana, onde as soluções de formulário fechado são um luxo raro e duplamente especialmente em conjuntos de dados "grandes". Eu não hesitaria em executar o XGBoost em um conjunto de dados com 10 milhões de linhas. Eu nem consideraria executar um modelo Stan em um conjunto de dados com 10 milhões de linhas.

Dadas todas as desvantagens descritas acima, um cientista de dados ou uma pequena equipe de cientistas de dados pode iterar muito mais rapidamente usando técnicas de aprendizado de máquina menos probabilísticas e obter resultados "suficientemente bons".

Edit: como apontado nos comentários, os números 1 e 2 podem ser porque os métodos de programação probabilística ainda não demonstraram ter um desempenho nocaute em problemas do mundo real. As CNNs se popularizaram porque destruíram as técnicas existentes.

Edit 2: parece que a probabilística está se tornando popular para modelagem de séries temporais , onde o aprendizado profundo não parece tão eficaz quanto em outros domínios.

— shadowtalker
fonte

2

Boa resposta. No entanto, o recíproco dos pontos 1 e 2 pode ser argumentado igualmente bem: eles podem ser explicados pela falta de desempenho prático da programação probabilística. Se um artigo de PP sair mostrando o tipo de superioridade no estado da arte em um conjunto de dados de referência, como o artigo de Krizhevsky fez com os convnets, muitos transformarão Bayesiano da noite para o dia.

— P-Gn

Isso é um ponto muito bom @ user1735003

— shadowtalker

4

Combater o argumento do ShadowTalker acima sobre o ML probabilístico ainda não estar completo, é definitivamente verdadeiro, mas houve alguns avanços realmente empolgantes em escalabilidade e complexidade por causa da inferência variacional que ainda é uma pesquisa de ponta. Penso que continua a ser uma questão interessante de saber se, se o BC probabilístico poderia proporcionar o mesmo desempenho dos métodos tradicionais, preferiríamos uniformemente a esses métodos? De muitas maneiras, há muito mais informações transmitidas em uma PML estimada posteriormente.

Independentemente da resposta à pergunta acima, acho que os dois conjuntos de métodos viverão em nichos diferentes nos próximos anos. Acho que os métodos tradicionais provavelmente manterão uma certa margem de desempenho, mas, quando estivermos preocupados com as variáveis latentes (incógnitas) de um problema, a PML será o mecanismo certo para o trabalho.

— JoeTheShmoe
fonte