Tenho formação em ciência da computação, mas estou tentando me ensinar ciência de dados resolvendo problemas na internet.
Eu tenho trabalhado nesse problema nas últimas duas semanas (aproximadamente 900 linhas e 10 recursos). Eu estava inicialmente usando regressão logística, mas agora mudei para florestas aleatórias. Quando executo meu modelo de floresta aleatória nos meus dados de treinamento, obtenho valores realmente altos para auc (> 99%). No entanto, quando executo o mesmo modelo nos dados de teste, os resultados não são tão bons (precisão de aproximadamente 77%). Isso me leva a acreditar que estou ajustando demais os dados do treinamento.
Quais são as melhores práticas para evitar o excesso de ajuste em florestas aleatórias?
Estou usando re rstudio como meu ambiente de desenvolvimento. Estou usando o randomForest
pacote e aceito padrões para todos os parâmetros