No meu entendimento, variáveis altamente correlacionadas não causarão problemas de multicolinearidade no modelo aleatório de floresta (por favor, corrija-me se estiver errado). No entanto, por outro lado, se eu tiver muitas variáveis contendo informações semelhantes, o modelo pesará muito nesse conjunto e não nos outros?
Por exemplo, existem dois conjuntos de informações (A, B) com o mesmo poder preditivo. As variáveis , , ... X_ {1000} contêm todas as informações A e apenas Y contêm as informações B. Quando as variáveis de amostragem aleatória, a maioria das árvores cresce na informação A e, como resultado, as informações B não são totalmente capturadas?
multicollinearity
como NÃO tendo efeito no modelo de floresta aleatória. Por exemplo, aqui , a resposta mais votada diz que "nenhuma parte do modelo de floresta aleatória é prejudicada por variáveis altamente colineares". Isso tem alguma validade?