Você não deve apenas jogar os dados em algoritmos diferentes e observar a qualidade das previsões. Você precisa entender melhor seus dados, e a maneira de fazer isso é primeiro visualizar seus dados (as distribuições marginais). Mesmo se você estiver interessado apenas finalmente nas previsões, estará em uma posição melhor para criar modelos melhores se entender melhor os dados. Portanto, primeiro, tente entender melhor os dados (e modelos simples ajustados aos dados) e, em seguida, você estará em uma posição muito melhor para criar modelos mais complexos e, esperançosamente, melhores.
rEu= YEu- Y^Eu,i = 1 , 2 , … , n
Para saber o que verificar, você precisa entender as suposições por trás da regressão linear, consulte O que é uma lista completa das suposições usuais para a regressão linear?
rEuY^Eu
Outras suposições é linearidade . Para verificá-las, plote os resíduos contra cada um dos preditores no modelo. Se você vir alguma curvatura nessas plotagens, isso é uma evidência contra a linearidade. Se você encontrar não linearidade, poderá tentar algumas transformações ou (abordagem mais moderna) incluir esse preditor não linear no modelo de maneira não linear, talvez usando splines (você tem 60 milhões de exemplos, portanto, isso deve ser bastante viável! )
xEu⋅ zEuxz
Um tratamento de livro é R Dennis Cook & Sanford Weisberg: "Residuais e influência na regressão", Chapman & Hall. Um tratamento de livro mais moderno é Frank Harrell: "Estratégias de modelagem de regressão".
E, voltando à questão do título: "A regressão baseada em árvore pode ter um desempenho pior que a regressão linear simples?" Sim, claro que pode. Os modelos baseados em árvore têm como função de regressão uma função de etapa muito complexa. Se os dados realmente provêm (se comportam como simulados) de um modelo linear, as funções de etapa podem ser uma aproximação ruim. E, como mostrado nos exemplos da outra resposta, os modelos baseados em árvore podem extrapolar muito fora do intervalo dos preditores observados. Você também pode tentar randomforrest e ver o quanto isso é melhor do que uma única árvore.