Minha pergunta vem do seguinte fato. Eu tenho lido posts, blogs, palestras e livros sobre aprendizado de máquina. Minha impressão é que os profissionais de aprendizado de máquina parecem indiferentes a muitas coisas com as quais os estatísticos / econométricos se preocupam. Em particular, os profissionais de aprendizado de máquina enfatizam a precisão das previsões sobre a inferência.
Um exemplo ocorreu quando eu estava usando o Machine Learning de Andrew Ng no Coursera. Quando ele discute o Modelo Linear Simples, ele não mencionou nada sobre a propriedade AZUL dos estimadores ou sobre como a heterocedasticidade "invalidaria" o intervalo de confiança. Em vez disso, ele se concentra na implementação de descidas de gradiente e no conceito de validação cruzada / curva ROC. Esses tópicos não foram abordados nas minhas aulas de econometria / estatística.
Outro exemplo ocorreu quando participei das competições do Kaggle. Eu estava lendo o código e os pensamentos de outras pessoas. Uma grande parte dos participantes simplesmente joga tudo no SVM / random forest / XGBoost.
Ainda outro exemplo é sobre a seleção gradual de modelos. Essa técnica é amplamente usada, pelo menos online e no Kaggle. Muitos livros clássicos de aprendizado de máquina também o abordam, como Introdução ao aprendizado estatístico. No entanto, de acordo com esta resposta (que é bastante convincente), a seleção gradual de modelos enfrenta muitos problemas, especialmente quando se trata de "descobrir o verdadeiro modelo". Parece que existem apenas duas possibilidades: os profissionais de aprendizado de máquina não conhecem o problema passo a passo, ou sabem, mas não se importam.
Então, aqui estão as minhas questões:
- É verdade que (em geral) os profissionais de aprendizado de máquina se concentram na previsão e, portanto, não se preocupam com muitas coisas com as quais os estatísticos / economistas se preocupam?
- Se é verdade, qual é a razão por trás disso? É porque a inferência é mais difícil em algum sentido?
- Há toneladas de materiais on-line sobre aprendizado de máquina (ou previsão). Se estou interessado em aprender sobre a inferência, no entanto, quais são os recursos on-line que posso consultar?
Atualização : Acabei de perceber que a palavra "inferência" pode significar muitas coisas. O que eu quis dizer com "inferência" refere-se a perguntas como
Será que causa ou causada ? Ou, de maneira mais geral, quais são as relações causais entre ?Y Y X X 1 , X 2 , ⋯ , X n
Como "todos os modelos estão errados", quão "errado" é o nosso modelo do modelo verdadeiro?
Dadas as informações de uma amostra, o que podemos dizer sobre a população e quão confiantes podemos dizer isso?
Devido ao meu conhecimento estatístico muito limitado, nem tenho certeza se essas questões se enquadram no domínio da estatística ou não. Mas esses são os tipos de perguntas com as quais os profissionais de aprendizado de máquina parecem não se importar. Talvez os estatísticos também não se importem? Eu não sei.
fortunes
pacote no CRAN. Isso apenas para dizer que você não está sozinho com a Impressão, que o rigor matemático nem sempre é a principal preocupação no aprendizado de máquina.