A regressão logística (e mais geralmente, o GLM) NÃO pertence ao Machine Learning! Em vez disso, esses métodos pertencem à modelagem paramétrica .
Ambos paramétricos modelos e algorítmicos (ML) usam os dados, mas de maneiras diferentes . Modelos algorítmicos aprendem com os dados como os preditores são mapeados para o preditor e, mas eles não assumem o processo que gerou as observações (nem qualquer outro pressuposto, na verdade). Eles consideram que os relacionamentos subjacentes entre as variáveis de entrada e saída são complexos e desconhecidos e, portanto, adotam uma abordagem orientada a dados para entender o que está acontecendo, em vez de impor uma equação formal.
Por outro lado, modelos paramétricos são prescritos a priori com base em algum conhecimento do processo estudado, usam os dados para estimar seus parâmetros e fazem muitas suposições irrealistas que raramente são válidas na prática (como independência, variação igual e Distribuição normal dos erros).
Além disso, modelos paramétricos (como regressão logística) são modelos globais . Eles não podem capturar padrões locais nos dados (diferentemente dos métodos de ML que usam árvores como seus modelos de base, por exemplo, RF ou Boosted Trees). Veja este documento na página 5. Como estratégia de remediação, o GLM local (ou seja, não paramétrico) pode ser usado (consulte, por exemplo, o pacote locfit R).
Freqüentemente, quando há pouco conhecimento sobre o fenômeno subjacente, é melhor adotar uma abordagem orientada a dados e usar modelagem algorítmica. Por exemplo, se você usar regressão logística em um caso em que a interação entre as variáveis de entrada e saída não seja linear, seu modelo será claramente inadequado e muito sinal não será capturado. No entanto, quando o processo é bem compreendido, os modelos paramétricos têm a vantagem de fornecer uma equação formal para resumir tudo, o que é poderoso do ponto de vista teórico.
Para uma discussão mais detalhada, leia este excelente artigo de Leo Breiman.