Estive analisando um conjunto de dados de ~ 400k registros e 9 variáveis. A variável dependente é binária. Eu ajustei uma regressão logística, uma árvore de regressão, uma floresta aleatória e uma árvore aumentada por gradiente. Todos eles fornecem números idênticos virtuais de ajuste quando os valido em outro conjunto de dados.
Porque isto é assim? Acho que é porque minhas observações em relação à variável são muito altas. Se isso estiver correto, em que observação / razão variável os diferentes modelos começarão a fornecer resultados diferentes?