Penso que esta é uma pergunta direta, embora o raciocínio por trás do porquê ou por que não possa não ser. O motivo pelo qual pergunto é que recentemente escrevi minha própria implementação de uma RF e, embora ela tenha um bom desempenho, ela não está funcionando tão bem quanto eu esperava (com base no conjunto de dados da competição Kaggle Photo Quality Prediction , nas pontuações vencedoras e em alguns as informações subsequentes disponíveis sobre quais técnicas foram usadas).
A primeira coisa que faço nessas circunstâncias é o erro de previsão de plotagem para o meu modelo; portanto, para cada valor de previsão determinado, eu determino o viés médio (ou desvio) do valor-alvo correto. Para o meu RF, recebi este enredo:
Eu estou querendo saber se este é um padrão de viés comumente observado para RF (caso contrário, talvez possa ser algo específico para o conjunto de dados e / ou minha implementação). É claro que posso usar esse gráfico para melhorar as previsões usando-o para compensar o viés, mas estou me perguntando se há um erro ou falha mais fundamental no próprio modelo de RF que precisa ser resolvido. Obrigado.
== ADENDO ==
Minha investigação inicial está nesta entrada do blog Random Forest Bias - Atualização