Primeiras coisas primeiro. Tudo o que eu digo é apenas meu entendimento. Portanto, como sempre, posso estar errado.
Henry está parcialmente certo. Mas Econometria também é uma família de métodos. Existem vários métodos econométricos diferentes que podem ser aplicados, dependendo da questão de pesquisa em questão, bem como dos dados fornecidos (seção transversal versus dados do painel e assim por diante).
O aprendizado de máquina, no meu entendimento, é uma coleção de métodos que permitem que as máquinas aprendam padrões a partir de observações passadas (muitas vezes na forma de uma caixa preta). A regressão é uma ferramenta padrão em econometria, bem como em aprendizado de máquina, pois permite aprender relacionamentos entre variáveis e extrapolar esses relacionamentos para o futuro.
Nem todos os economistas estão interessados em uma interpretação causal das estimativas de parâmetros (eles raramente podem reivindicar uma interpretação causal se dados observacionais (não experimentais) forem usados). Muitas vezes, como no caso de dados de séries temporais, os economistas também se preocupam apenas com o desempenho preditivo.
Essencialmente, ambos são a mesma coisa, mas desenvolvidos em diferentes subcampos (o aprendizado de máquina está enraizado na ciência da computação). Ambos são uma coleção de métodos. Os economometristas também usam cada vez mais métodos de aprendizado de máquina, como árvores de decisão e redes neurais.
Você já tocou em um ponto muito interessante: causalidade. Essencialmente, os dois campos gostariam de conhecer os verdadeiros relacionamentos subjacentes, mas como você já mencionou, muitas vezes o desempenho preditivo é o principal KPI usado nas tarefas de aprendizado de máquina. Ou seja, ter um erro de generalização baixo é o objetivo principal. Obviamente, se você conhece os verdadeiros relacionamentos causais, esse deve ter o menor erro de generalização dentre todas as formulações possíveis. A realidade é muito complexa e não há palpites livres. Por isso, na maioria das vezes, temos apenas conhecimento parcial do sistema subjacente e, às vezes, nem conseguimos medir as influências mais importantes. Mas podemos usar variáveis proxy que se correlacionam com as verdadeiras variáveis subjacentes que gostaríamos de medir.
Longa história, curta e muito, muito superficial: os dois campos estão relacionados, enquanto os economistas estão mais interessados em encontrar as verdadeiras relações causais (isto é, testando algumas hipóteses), enquanto o aprendizado de máquina está mais enraizado na ciência da computação e mais na construção de sistemas com baixa erro de generalização.
PS: Usar apenas todo o conjunto de dados em econometria também deve ser evitado. Os economometristas estão ficando mais conscientes de que os relacionamentos encontrados como exemplo não necessariamente se generalizam para novos dados. Portanto, a replicação de estudos econométricos é e sempre foi muito importante.
Espero que isso ajude de alguma forma.