Meus estudos em ciência de dados começaram como um mestrado em estatística aplicada. Um dos cursos foi sobre aprendizado de máquina e tinha uma abordagem semelhante à que você está descrevendo. Então, eu posso simpatizar um pouco com a sua visão atual. Mas, assim como outras coisas que você pode ter aprendido na vida, a maneira como você faz as coisas em um ambiente acadêmico e a maneira como você faz as coisas em um ambiente de negócios (por exemplo, para um cliente) são completamente diferentes. Aqui está o que eu aprendi desde meus estudos iniciais:
1 - Aprenda Python
Claro, existem outras ferramentas por aí e elas são boas (eu costumava escrever código R com a melhor delas), mas Python é onde o futuro está, ponto final. Além disso, pouquíssimas ferramentas são dimensionadas, assim como Python, e isso é importante se você deseja trabalhar em coisas realmente interessantes.
2 - Tudo se resume à implementação
Adivinha? Todas essas coisas que você está aprendendo agora (matrizes de confusão, redução de fatores etc.) não significam nada para seus clientes. Eles vão apenas olhar para você e dizer: "Qual é o produto? Quando você implantará algo no meu telefone? Onde meu aplicativo da web deve clicar?". Uma grande parte do seu trabalho será transformar todo o seu trabalho em um produto e você se encontrará usando um chapéu de desenvolvedor de software quase. Esse também é outro bom motivo para aprender python.
3 - Os pipelines de dados levam tempo
Muito do seu trabalho será sobre manipulação de dados e apenas garantirá que os pipelines de dados necessários estejam lá. Claro, você tem um banco de dados - mas como vai atualizá-lo? De que pré-processamento você precisa? Onde seus resultados são armazenados? Você vai gastar muito tempo descobrindo essas coisas. Você perderá seus dias de escola quando os conjuntos de dados foram fornecidos de uma maneira agradável e limpa :)
4 - Redes neurais chutam a bunda
Depois de dar uma mordida nessa maçã, é difícil voltar :). Aprenda Keras e aproveite o passeio. Depois de um tempo, você terá que se lembrar de quais são as decisões das árvores :)
5 - Pesquisas de modelo são muito mais fáceis agora
Para ser 100% claro, a abordagem de "pesquisa de modelo" que você está fazendo agora é uma experiência MUITO valiosa. Você definitivamente deveria trabalhar duro nessas classes. No entanto, se você tiver tempo, consulte (1) Data Robot ou (2) Watson Analytics. Ambos os pacotes fazem, essencialmente, a mesma coisa. Eles pegarão seu conjunto de dados e encontrarão o melhor modelo para ele. Todos os itens que você descreveu acima são feitos para você em questão de segundos. É quase assustador o quão rápido eles são e são muito eficazes para ajudar você a reduzir seu trabalho. No entanto, esteja avisado de que esses pacotes suportam apenas dados supervisionados. Você ainda precisará fazer isso da maneira antiquada para dados não supervisionados (ou rotular alguns e usar uma rede neural).
6 - Ainda uso a teoria por trás de outros modelos
Mesmo se eu usar muito redes neurais, os outros modelos ainda serão úteis. Você ainda usará regressão linear ou árvores de decisão para problemas básicos. Também é útil quando decido ler alguns trabalhos de pesquisa sobre arquivx ou o que seja. Então, ainda vou usá-los para meu próprio estudo e entendimento, mas é isso.
Diverta-se!