Não existem diferenças formais no IMHO que distinguem o aprendizado de máquina e as estatísticas no nível fundamental de adaptação dos modelos aos dados. Pode haver diferenças culturais na escolha dos modelos, nos objetivos de ajustar os modelos aos dados e, em alguns casos, estender as interpretações.
Nos exemplos típicos em que consigo pensar, sempre temos
- uma coleção de modelos para para algum conjunto de índices ,Mii∈II
- e para cada um componente desconhecido (os parâmetros podem ser dimensionais infinitos) do modelo .iθiMi
Ajustar aos dados quase sempre é um problema de otimização matemática que consiste em encontrar a escolha ideal do componente desconhecido para fazer com que ajuste os dados, conforme medido por alguma função favorita.MiθiMi
A seleção entre os modelos é menos padrão e há várias técnicas disponíveis. Se o objetivo do ajuste do modelo é puramente preditivo, a seleção do modelo é feita com uma tentativa de obter um bom desempenho preditivo, enquanto que o objetivo principal é interpretar os modelos resultantes, modelos mais facilmente interpretáveis podem ser selecionados em relação a outros modelos, mesmo que seus o poder preditivo deverá ser pior.Mi
O que poderia ser chamado de seleção de modelo estatístico da velha escola é baseado em testes estatísticos, talvez combinados com estratégias de seleção passo a passo, enquanto a seleção de modelo de aprendizado de máquina geralmente se concentra no erro de generalização esperado, que geralmente é estimado usando a validação cruzada. Os desenvolvimentos atuais e os entendimentos da seleção de modelos, no entanto, parecem convergir para um terreno mais comum; veja, por exemplo, Seleção de Modelo e Média do Modelo .
Inferindo causalidade de modelos
O cerne da questão é como podemos interpretar um modelo? Se os dados obtidos são de um experimento cuidadosamente projetado e o modelo é adequado, é plausível que possamos interpretar o efeito de uma alteração de uma variável no modelo como um efeito causal, e se repetirmos o experimento e intervirmos nessa variável específica podemos esperar observar o efeito estimado. Se, no entanto, os dados forem observacionais, não podemos esperar que os efeitos estimados no modelo correspondam aos efeitos observáveis da intervenção. Isso exigirá suposições adicionais, independentemente de o modelo ser um "modelo de aprendizado de máquina" ou "modelo estatístico clássico".
Pode ser que as pessoas treinadas no uso de modelos estatísticos clássicos com foco em estimativas univariadas de parâmetros e interpretações de tamanho de efeito tenham a impressão de que uma interpretação causal é mais válida nessa estrutura do que em uma estrutura de aprendizado de máquina. Eu diria que não é.
A área de inferência causal nas estatísticas não remove realmente o problema, mas faz as suposições sobre as quais conclusões causais se baseiam explícitas. Eles são chamados de suposições não testáveis . O artigo Inferência causal nas estatísticas: Uma visão geral da Judea Pearl é um bom artigo para ler. Uma contribuição importante da inferência causal é a coleta de métodos para a estimativa de efeitos causais sob premissas onde, na verdade, existem fatores de confusão não observados, o que, de outra forma, é uma grande preocupação. Consulte a Seção 3.3 no documento Pearl acima. Um exemplo mais avançado pode ser encontrado no artigo Modelos Estruturais Marginais e Inferência Causal em Epidemiologia .
É uma questão de assunto se as suposições não testáveis se mantêm. Eles são precisamente não testáveis porque não podemos testá-los usando os dados. Para justificar as suposições, outros argumentos são necessários.
Como um exemplo de onde o aprendizado de máquina e a inferência causal se encontram, as idéias da estimativa de máxima verossimilhança direcionada , apresentadas em Mark van der Laan e Daniel Rubin, normalmente aprendem a verossimilhança de máxima verossimilhança, normalmente exploram técnicas de aprendizado de máquina para estimação não paramétrica seguida pelo "direcionamento" "em direção a um parâmetro de interesse. O último poderia muito bem ser um parâmetro com uma interpretação causal. A ideia no Super Alunoé confiar fortemente nas técnicas de aprendizado de máquina para estimar parâmetros de interesse. É um ponto importante de Mark van der Laan (comunicação pessoal) que modelos estatísticos clássicos, simples e "interpretáveis" geralmente estão errados, o que leva a estimadores tendenciosos e avaliação otimista demais da incerteza das estimativas.