Eu encontrei alguns estatísticos que nunca usam modelos diferentes de regressão linear para previsão porque acreditam que "modelos de ML", como floresta aleatória ou aumento de gradiente, são difíceis de explicar ou "não interpretáveis".
Em uma regressão linear, considerando que o conjunto de premissas é verificado (normalidade dos erros, homocedasticidade, sem multicolinearidade), os testes t fornecem uma maneira de testar a significância das variáveis, testes que, a meu conhecimento, não estão disponíveis no florestas aleatórias ou modelos de aumento de gradiente.
Portanto, minha pergunta é se eu quero modelar uma variável dependente com um conjunto de variáveis independentes, por uma questão de interpretabilidade, eu sempre devo usar a regressão linear?