Portanto, sua consulta é uma comparação da regressão linear versus a importância das variáveis derivadas do modelo da floresta aleatória.
O laço encontra coeficientes do modelo de regressão linear aplicando a regularização. Uma abordagem popular para classificar a importância de uma variável em um modelo de regressão linear é decompor em contribuições atribuídas a cada variável. Mas a importância das variáveis não é direta na regressão linear devido a correlações entre variáveis. Consulte o documento que descreve o método PMD (Feldman, 2005) nas referências abaixo.R2
Outra abordagem popular é a média de pedidos (LMG, 1980). O LMG funciona assim:
- Encontre a correlação semi-parcial de cada preditor no modelo, por exemplo, para a variável a, temos: . Implica quanto aumentaria se a variável fosse adicionada ao modelo. R 2 umSSa/SStotalR2a
- Calcule esse valor para cada variável para cada ordem em que a variável é introduzida no modelo, ou seja, { }; { }; { }b , a , c b , c , aa,b,cb,a,cb,c,a
- Encontre a média das correlações semi-parciais para cada uma dessas ordens. Essa é a média de pedidos em excesso.
O algoritmo de floresta aleatória se encaixa em várias árvores, cada árvore na floresta é construída selecionando aleatoriamente diferentes recursos do conjunto de dados. Os nós de cada árvore são construídos escolhendo e dividindo para obter a máxima redução de variação. Ao prever no conjunto de dados de teste, a saída individual das árvores é calculada como média para obter a saída final. Cada variável é permutada entre todas as árvores e a diferença no erro fora da amostra de antes e depois da permutação é calculada. As variáveis com maior diferença são consideradas mais importantes e aquelas com valores mais baixos são menos importantes.
O método pelo qual o modelo se encaixa nos dados de treinamento é muito diferente para um modelo de regressão linear em comparação com o modelo de floresta aleatória. Mas ambos os modelos não contêm nenhum relacionamento estrutural entre as variáveis.
Em relação à sua consulta sobre a não linearidade da variável dependente: O laço é essencialmente um modelo linear que não será capaz de fornecer boas previsões para processos não lineares subjacentes, em comparação com modelos baseados em árvore. Você deve poder verificar isso verificando o desempenho dos modelos em um conjunto de testes de retirada de terras. Se a floresta aleatória tiver um desempenho melhor, o processo subjacente poderá ser não linear. Como alternativa, você pode incluir efeitos de interação variáveis e variáveis de ordem superior criadas usando a, bec no modelo de laço e verificar se esse modelo tem melhor desempenho em comparação com um laço com apenas uma combinação linear de a, bec. Se isso acontecer, o processo subjacente pode ser não linear.
Referências: