Eu sou relativamente novo em florestas aleatórias. No passado, sempre comparei a precisão do ajuste contra o teste contra o ajuste contra o trem para detectar qualquer ajuste excessivo. Mas acabei de ler aqui que:
"Em florestas aleatórias, não há necessidade de validação cruzada ou de um conjunto de testes separado para obter uma estimativa imparcial do erro do conjunto de testes. Ele é estimado internamente, durante a execução ..."
O pequeno parágrafo acima pode ser encontrado na seção Estimativa de erro fora da bolsa (oob) . Esse conceito de Erro fora da bolsa é completamente novo para mim e o que é um pouco confuso é como o erro OOB no meu modelo é de 35% (ou 65% de precisão), mas, no entanto, se eu aplicar a validação cruzada aos meus dados (apenas uma observação simples) método) e comparar o ajuste vs teste contra o ajuste vs trem , obtenho uma precisão de 65% e uma precisão de 96%, respectivamente. Na minha experiência, isso é considerado sobreajuste, mas o OOB possui um erro de 35%, assim como meu erro de ajuste versus teste . Estou superando? Eu deveria estar usando validação cruzada para verificar a sobreajuste em florestas aleatórias?
Em resumo, não tenho certeza se devo confiar no OOB para obter um erro imparcial do erro do conjunto de testes quando meu ajuste versus trem indica que estou ajustando demais!