A floresta aleatória precisa que as variáveis ​​de entrada sejam dimensionadas ou centralizadas?


16

Minhas variáveis ​​de entrada têm dimensões diferentes. Algumas variáveis ​​são decimais, enquanto outras são centenas. É essencial centralizar (subtrair média) ou escalar (dividir por desvio padrão) essas variáveis ​​de entrada para tornar os dados sem dimensão ao usar floresta aleatória?

Respostas:


29

Não.

As florestas aleatórias são baseadas em algoritmos de particionamento em árvore.

Como tal, não há análogo ao coeficiente obtido nas estratégias gerais de regressão, o que dependeria das unidades das variáveis ​​independentes. Em vez disso, é possível obter uma coleção de regras de partição, basicamente uma decisão com um limite, e isso não deve mudar com o dimensionamento. Em outras palavras, as árvores só veem classificações nos recursos.

Basicamente, qualquer transformação monotônica de seus dados não deve alterar a floresta (nas implementações mais comuns).

Além disso, as árvores de decisão geralmente são robustas para instabilidades numéricas que às vezes prejudicam a convergência e a precisão em outros algoritmos.


0

No geral, concordo com o Firebug, mas pode haver algum valor na padronização de suas variáveis ​​se você estiver interessado em pontuações de importância do preditor. A RF tenderá a favorecer preditores contínuos altamente variáveis, porque há mais oportunidades de particionar os dados. Uma maneira melhor de lidar com esse problema, no entanto, é usar abordagens específicas (isto é, amostragem sem substituição usando florestas condicionais) que são mais robustas a esse viés. Consulte https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Bem vindo ao site. Estamos tentando construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Portanto, temos receio de respostas somente para links, devido ao linkrot. Você pode postar uma citação completa e um resumo das informações no link, caso elas desapareçam?
gung - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.