Infelizmente, a diferença entre essas áreas é em grande parte onde elas são ensinadas: a estatística é baseada em depósitos de matemática, ai, aprendizado de máquina em depósitos de ciência da computação e a mineração de dados é mais aplicada (usada por depósitos de negócios ou marketing, desenvolvida por empresas de software) .
Em primeiro lugar, a IA (embora possa significar qualquer sistema inteligente) tradicionalmente significa abordagens baseadas em lógica (por exemplo, sistemas especialistas), em vez de estimativa estatística. A estatística, baseada em representações matemáticas, teve um entendimento teórico muito bom, juntamente com uma forte experiência aplicada em ciências experimentais, onde existe um modelo científico claro, e é necessária estatística para lidar com os limitados dados experimentais disponíveis. Muitas vezes, o foco está em extrair o máximo de informações de conjuntos de dados muito pequenos. além disso, existe uma tendência para as provas matemáticas: você não será publicado a menos que possa provar coisas sobre sua abordagem. Isso costuma significar que as estatísticas estão atrasadas no uso de computadores para automatizar a análise. Novamente, a falta de conhecimento de programação impediu que os estatísticos trabalhassem em problemas de larga escala, onde os problemas computacionais se tornavam importantes (considere GPUs e sistemas distribuídos, como o hadoop). Acredito que áreas como bioinformática agora mudaram mais as estatísticas nessa direção. Finalmente, eu diria que os estatísticos são um grupo mais cético: eles não afirmam que você descobre conhecimento com estatística - em vez disso, um cientista apresenta uma hipótese, e o trabalho do estatístico é verificar se a hipótese é suportada pelos dados. O aprendizado de máquina é ensinado nos departamentos cs, que infelizmente não ensinam a matemática apropriada: cálculo multivariável, probabilidade, estatística e otimização não são comuns ... temos conceitos vagos e "glamourosos", como aprender com exemplos ...Elementos de aprendizagem estatística página 30. Isso tende a significar que há muito pouco entendimento teórico e uma explosão de algoritmos, pois os pesquisadores sempre podem encontrar alguns conjuntos de dados nos quais seu algoritmo se mostra melhor. Portanto, existem enormes fases de hype à medida que os pesquisadores de ML buscam a próxima grande novidade: redes neurais, aprendizado profundo etc. Infelizmente, há muito mais dinheiro nos departamentos de CS (pense no Google, Microsoft, juntamente com o 'aprendizado' mais comercializável). estatísticos mais céticos são ignorados. Finalmente, há uma tendência empirista: basicamente, existe uma crença subjacente de que, se você lançar dados suficientes no algoritmo, ele 'aprenderá' as previsões corretas. Embora eu seja tendencioso contra o ML, há um insight fundamental no ML que os estatísticos ignoraram: que os computadores podem revolucionar a aplicação das estatísticas.
Existem duas maneiras: a) automatizar a aplicação de testes e modelos padrão. Por exemplo, executando uma bateria de modelos (regressão linear, florestas aleatórias, etc, tentando diferentes combinações de entradas, configurações de parâmetros, etc.). Isso realmente não aconteceu - embora eu suspeite que os concorrentes do kaggle desenvolvam suas próprias técnicas de automação. b) aplicação de modelos estatísticos padrão a dados enormes: pense, por exemplo, no google tradutor, em sistemas de recomendação etc. (ninguém está afirmando que, por exemplo, as pessoas traduzem ou recomendam dessa forma ... mas é uma ferramenta útil). Os modelos estatísticos subjacentes são diretos, mas existem enormes problemas computacionais na aplicação desses métodos a bilhões de pontos de dados.
A mineração de dados é o culminar dessa filosofia ... desenvolvendo maneiras automatizadas de extrair conhecimento dos dados. No entanto, possui uma abordagem mais prática: essencialmente é aplicada a dados comportamentais, onde não existe uma teoria científica abrangente (marketing, detecção de fraudes, spam, etc.) e o objetivo é automatizar a análise de grandes volumes de dados: sem dúvida, uma Uma equipe de estatísticos poderia produzir análises melhores com tempo suficiente, mas é mais econômico usar um computador. Além disso, como D. Hand explica, é a análise de dados secundários - dados que são registrados de qualquer maneira e não dados coletados explicitamente para responder a uma pergunta científica em um sólido projeto experimental. Estatísticas de mineração de dados e muito mais, D Hand
Então, eu resumiria que a IA tradicional é baseada na lógica e não estatística, o aprendizado de máquina é estatística sem teoria e estatística é 'estatística sem computadores' e a mineração de dados é o desenvolvimento de ferramentas automatizadas para análise estatística com o mínimo de intervenção do usuário.