Em relação à previsão, as estatísticas e as ciências da aprendizagem de máquina começaram a resolver principalmente o mesmo problema sob diferentes perspectivas.
Basicamente, as estatísticas pressupõem que os dados foram produzidos por um determinado modelo estocástico. Portanto, do ponto de vista estatístico, um modelo é assumido e, com várias premissas, os erros são tratados e os parâmetros do modelo e outras questões são inferidos.
O aprendizado de máquina vem da perspectiva da ciência da computação. Os modelos são algorítmicos e, geralmente, são necessárias poucas suposições com relação aos dados. Trabalhamos com espaço de hipóteses e viés de aprendizado. A melhor exposição de aprendizado de máquina que encontrei está contida no livro de Tom Mitchell chamado Machine Learning .
Para uma idéia mais exaustiva e completa sobre as duas culturas, você pode ler o artigo de Leo Breiman chamado Statistical Modeling: The Two Cultures
No entanto, o que se deve acrescentar é que, mesmo que as duas ciências tenham começado com perspectivas diferentes, ambas agora compartilham uma quantidade razoável de conhecimentos e técnicas comuns. Porque, porque os problemas eram os mesmos, mas as ferramentas eram diferentes. Portanto, agora o aprendizado de máquina é tratado principalmente de uma perspectiva estatística (verifique o livro de Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, do ponto de vista do aprendizado de máquina, com um tratamento estatístico, e talvez o livro de Kevin P. Murphy, Machine Learning: A perspectiva probabilística , para citar apenas alguns dos melhores livros disponíveis hoje).
Até a história do desenvolvimento desse campo mostra os benefícios dessa mescla de perspectivas. Vou descrever dois eventos.
A primeira é a criação de árvores CART, criadas por Breiman com um sólido histórico estatístico. Aproximadamente ao mesmo tempo, Quinlan desenvolveu o ID3, C45, See5 e assim por diante, um conjunto de árvores de decisão com mais experiência em ciência da computação. Agora, ambas as famílias de árvores e os métodos do conjunto, como ensacamento e florestas, tornam-se bastante semelhantes.
A segunda história é sobre impulsionar. Inicialmente, eles foram desenvolvidos por Freund e Shapire quando descobriram o AdaBoost. As escolhas para projetar o AdaBoost foram feitas principalmente de uma perspectiva computacional. Mesmo os autores não entenderam bem por que isso funciona. Apenas 5 anos depois, Breiman (de novo!) Descreveu o modelo adaboost de uma perspectiva estatística e deu uma explicação do porquê disso funciona. Desde então, vários cientistas eminentes, com ambos os tipos de formação, desenvolveram ainda mais essas idéias, levando a uma plêiade de algoritmos de impulso, como aumento de logística, aumento de gradiente, aumento suave e assim por diante. Agora é difícil pensar em impulsionar sem um sólido histórico estatístico.
Modelos lineares generalizados é um desenvolvimento estatístico. No entanto, novos tratamentos bayesianos colocam esse algoritmo também no playground de aprendizado de máquina. Portanto, acredito que ambas as afirmações podem estar certas, uma vez que a interpretação e o tratamento de como funciona podem ser diferentes.