importância da característica via floresta aleatória e regressão linear são diferentes


9

Lasso aplicado para classificar os recursos e obter os seguintes resultados:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Observe que o conjunto de dados possui 3 rótulos. A classificação dos recursos para os diferentes rótulos é a mesma.

Em seguida, aplicou a floresta aleatória ao mesmo conjunto de dados:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Observe que a classificação é muito diferente daquela produzida por Lasso.

Como interpretar a diferença? Isso implica que o modelo subjacente é inerentemente não linear?


A classificação de um recurso não se traduz realmente entre diferentes classificadores. Para testar se o modelo é não-linear, veja aqui, por exemplo: stats.stackexchange.com/questions/35893/...
Alex R.

11
Importâncias de recursos são apenas uma sugestão baseada em "heurísticas". Eles podem não ser confiáveis ​​às vezes. Eu normalmente confiava em florestas aleatórias mais do que em Lasso.
Gerenuk

Respostas:


6

Portanto, sua consulta é uma comparação da regressão linear versus a importância das variáveis ​​derivadas do modelo da floresta aleatória.

O laço encontra coeficientes do modelo de regressão linear aplicando a regularização. Uma abordagem popular para classificar a importância de uma variável em um modelo de regressão linear é decompor em contribuições atribuídas a cada variável. Mas a importância das variáveis ​​não é direta na regressão linear devido a correlações entre variáveis. Consulte o documento que descreve o método PMD (Feldman, 2005) nas referências abaixo.R2

Outra abordagem popular é a média de pedidos (LMG, 1980). O LMG funciona assim:

  • Encontre a correlação semi-parcial de cada preditor no modelo, por exemplo, para a variável a, temos: . Implica quanto aumentaria se a variável fosse adicionada ao modelo. R 2 umSSa/SStotalR2a
  • Calcule esse valor para cada variável para cada ordem em que a variável é introduzida no modelo, ou seja, { }; { }; { }b , a , c b , c , aa,b,cb,a,cb,c,a
  • Encontre a média das correlações semi-parciais para cada uma dessas ordens. Essa é a média de pedidos em excesso.

O algoritmo de floresta aleatória se encaixa em várias árvores, cada árvore na floresta é construída selecionando aleatoriamente diferentes recursos do conjunto de dados. Os nós de cada árvore são construídos escolhendo e dividindo para obter a máxima redução de variação. Ao prever no conjunto de dados de teste, a saída individual das árvores é calculada como média para obter a saída final. Cada variável é permutada entre todas as árvores e a diferença no erro fora da amostra de antes e depois da permutação é calculada. As variáveis ​​com maior diferença são consideradas mais importantes e aquelas com valores mais baixos são menos importantes.

O método pelo qual o modelo se encaixa nos dados de treinamento é muito diferente para um modelo de regressão linear em comparação com o modelo de floresta aleatória. Mas ambos os modelos não contêm nenhum relacionamento estrutural entre as variáveis.

Em relação à sua consulta sobre a não linearidade da variável dependente: O laço é essencialmente um modelo linear que não será capaz de fornecer boas previsões para processos não lineares subjacentes, em comparação com modelos baseados em árvore. Você deve poder verificar isso verificando o desempenho dos modelos em um conjunto de testes de retirada de terras. Se a floresta aleatória tiver um desempenho melhor, o processo subjacente poderá ser não linear. Como alternativa, você pode incluir efeitos de interação variáveis ​​e variáveis ​​de ordem superior criadas usando a, bec no modelo de laço e verificar se esse modelo tem melhor desempenho em comparação com um laço com apenas uma combinação linear de a, bec. Se isso acontecer, o processo subjacente pode ser não linear.

Referências:

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.