Estou usando floresta aleatória em dados agrupados de alta dimensão (50 variáveis numéricas de entrada) que possuem uma estrutura hierárquica. Os dados foram coletados com 6 repetições em 30 posições de 70 objetos diferentes, resultando em 12600 pontos de dados, que não são independentes.
Parece que a floresta aleatória está ajustando demais os dados, já que o erro oob é muito menor que o erro que obtemos ao deixar dados de um objeto fora durante o treinamento e prever o resultado do objeto excluído na floresta aleatória treinada. Além disso, correlacionei resíduos.
Eu acho que o sobreajuste é causado porque a floresta aleatória espera dados independentes. É possível informar a floresta aleatória sobre a estrutura hierárquica dos dados? Ou existe outro método poderoso de agrupamento ou retração que pode lidar com dados agrupados de alta dimensão com uma forte estrutura de interação?
Alguma dica de como posso fazer melhor?