Qual é a diferença entre Econometria e Machine Learning?

No meu entendimento, a econometria estima correlações parciais ( ceteris paribus ) com o objetivo de estimar principalmente as relações causais . Para isso, normalmente usa todo o conjunto de dados disponível. A economometria pode ser paramétrica e não paramétrica.

Enquanto isso, o aprendizado de máquina não está interessado em causalidade, mas em "ajuste" com o objetivo de produzir principalmente previsões . Para isso, normalmente divide o conjunto de dados entre o treinamento e os conjuntos de previsão. O aprendizado de máquina também pode ser paramétrico e não paramétrico.

É isso que posso entender do núcleo dessas duas disciplinas, mas tenho certeza de que há muito mais. Estou interessado principalmente em suas diferenças. Alguém pode fornecer um bom guia sobre isso, por favor?

machine-learning econometrics

— luchonacho
fonte

Eu acho que a econometria é um assunto ou disciplina, enquanto o aprendizado de máquina é uma família de métodos. Você pode usar a máquina de aprendizagem em econometria, bem como em outras áreas, e você pode usar outros métodos em econometria

— Henry

Ragnar Frisch escreveu na primeira edição da Econometrica que a econometria é sobre: "teoria econômica em sua relação com estatística e matemática". Assim, os modelos econométricos geralmente saem da teoria econômica ou da matemática / teoria dos jogos antes de serem ajustados aos dados. Estatísticas e aprendizado de máquina, no entanto, são orientados por dados e não orientados por teoria. Na minha opinião, essa é a diferença mais crucial. E na econometria, também existem modelos preditivos (em contraste com os modelos explicativos) ou modelos flexíveis (que precisam de treinamento / validação). Mas eles são apenas parte dos métodos usados.

— Achim Zeileis

qual é a diferença entre banana e frutas? econometria é um subcampo da aprendizagem de máquina ...

— Antoine

@Antoine eu preferiria argumentam que Machine Learning é um subcampo da Econometria ...

— rbm

@ Antonine, você não pode estar falando sério. Eu nunca vi o problema de testes estatísticos em um livro que rotulado própria "máquina de aprendizagem"

— Tomka

Respostas:

Primeiras coisas primeiro. Tudo o que eu digo é apenas meu entendimento. Portanto, como sempre, posso estar errado.

Henry está parcialmente certo. Mas Econometria também é uma família de métodos. Existem vários métodos econométricos diferentes que podem ser aplicados, dependendo da questão de pesquisa em questão, bem como dos dados fornecidos (seção transversal versus dados do painel e assim por diante).

O aprendizado de máquina, no meu entendimento, é uma coleção de métodos que permitem que as máquinas aprendam padrões a partir de observações passadas (muitas vezes na forma de uma caixa preta). A regressão é uma ferramenta padrão em econometria, bem como em aprendizado de máquina, pois permite aprender relacionamentos entre variáveis e extrapolar esses relacionamentos para o futuro.

Nem todos os economistas estão interessados em uma interpretação causal das estimativas de parâmetros (eles raramente podem reivindicar uma interpretação causal se dados observacionais (não experimentais) forem usados). Muitas vezes, como no caso de dados de séries temporais, os economistas também se preocupam apenas com o desempenho preditivo.

Essencialmente, ambos são a mesma coisa, mas desenvolvidos em diferentes subcampos (o aprendizado de máquina está enraizado na ciência da computação). Ambos são uma coleção de métodos. Os economometristas também usam cada vez mais métodos de aprendizado de máquina, como árvores de decisão e redes neurais.

Você já tocou em um ponto muito interessante: causalidade. Essencialmente, os dois campos gostariam de conhecer os verdadeiros relacionamentos subjacentes, mas como você já mencionou, muitas vezes o desempenho preditivo é o principal KPI usado nas tarefas de aprendizado de máquina. Ou seja, ter um erro de generalização baixo é o objetivo principal. Obviamente, se você conhece os verdadeiros relacionamentos causais, esse deve ter o menor erro de generalização dentre todas as formulações possíveis. A realidade é muito complexa e não há palpites livres. Por isso, na maioria das vezes, temos apenas conhecimento parcial do sistema subjacente e, às vezes, nem conseguimos medir as influências mais importantes. Mas podemos usar variáveis proxy que se correlacionam com as verdadeiras variáveis subjacentes que gostaríamos de medir.

Longa história, curta e muito, muito superficial: os dois campos estão relacionados, enquanto os economistas estão mais interessados em encontrar as verdadeiras relações causais (isto é, testando algumas hipóteses), enquanto o aprendizado de máquina está mais enraizado na ciência da computação e mais na construção de sistemas com baixa erro de generalização.

PS: Usar apenas todo o conjunto de dados em econometria também deve ser evitado. Os economometristas estão ficando mais conscientes de que os relacionamentos encontrados como exemplo não necessariamente se generalizam para novos dados. Portanto, a replicação de estudos econométricos é e sempre foi muito importante.

Espero que isso ajude de alguma forma.

— Apenas eu
fonte

Achim comentou que o ML é pouco (se não o é) dirigido pela teoria, que não é o que você diz. Você pode expandir isso? Esse é provavelmente um elemento central da análise.

— luchonacho

@luchonacho este é abordado em minha nota sobre esta resposta

— Tomka

@luchonacho tomka fez um ponto muito bom lá. Ainda assim, quero enfatizar o fato (e tomka também já mencionou isso) de que ambos os campos devem e estão interessados em causalidade. Em termos de aprendizado de máquina: o conhecimento dos verdadeiros relacionamentos causais deve resultar em um modelo com o menor viés e a variação. Uma etapa realmente importante em qualquer aplicação de aprendizado de máquina é a etapa de engenharia de recursos e isso deve ser conduzido pela teoria, independentemente de qual campo você é.

— JustMe

pequena coisa a acrescentar (que você mencionou no parágrafo anterior ao ps): diferenças na preocupação com a localização do viés. No ML, preocupação com viés no modelo (por exemplo, rmse); em econometria, preocupação com viés no parâmetro de interesse e potencial para viés de variáveis omitidas. De um modo geral, é claro.

— paqmo

Algumas notas além do @JustMe:

Primeiro, há muita arrogância em ambos os lados da Econometria e do Machine Learning. Discutir qual dos dois pode ser uma sub-disciplina é inútil. De fato, ambas são subdisciplinas fortemente sobrepostas do campo da estatística (que é melhor descrita como matemática aplicada). Ambos têm seus próprios focos e preferências, por exemplo, a Econometria concentra-se em hipóteses de estimativa e teste, geralmente em amostras menores, enquanto a ML concentra-se na melhor aproximação funcional, geralmente em amostras enormes. O primeiro enfoca métodos paramétricos que fazem suposições distributivas, o segundo mais frequentemente (mas de longe não exclusivamente) em métodos não paramétricos livres de distribuição. E assim por diante.

Segundo, se o objetivo é a previsão, não há necessidade inerente de entender a causalidade, desde que amostras aleatórias da mesma população estejam disponíveis. No entanto, entender a causalidade é de interesse central se queremos entender um sistema (isto é, desenvolvimento / teste da teoria) ou alterá-lo (isto é, agir sobre a teoria por uma intervenção). Esse tipo de objetivo de pesquisa é muito mais comum em econometria (e em outros campos como bioestatística) do que em aprendizado de máquina.

No entanto, existem pesquisadores de aprendizado de máquina interessados também em causalidade. A principal diferença entre os campos aqui é, mais uma vez, que os economistas têm hipóteses sobre intervenções e tentam estimar seus efeitos (por exemplo, de dados observacionais ou experimentais usando técnicas da teoria de inferência causal, como modelos de ponderação, correspondência ou seleção), enquanto o aprendizado de máquina seria em vez disso, tente aprender relações causais a partir dos dados (por exemplo, usando algoritmos de busca em gráficos causais acíclicos direcionados) e o foco é menos fortemente colocado em uma única intervenção.

— tomka
fonte