Importância variável randomForest valores negativos


Respostas:


5

A importância variável na floresta Aleatória é calculada da seguinte forma:

  1. Inicialmente, o MSE do modelo é calculado com as variáveis ​​originais
  2. Então, os valores de uma única coluna são permutados e o MSE é calculado novamente. Por exemplo, se uma coluna (Col1) obtiver os valores 1,2,3,4, e uma permutação aleatória dos valores resultar em 4,3,1,2. Isso resulta em um MSE1. Então, um aumento no MSE, ou seja, MSE1 - MSE, significaria a importância da variável.

  3. Esperamos que a diferença seja positiva, mas nos casos de um número negativo, isso indica que a permutação aleatória funcionou melhor. Pode-se inferir que a variável não tem um papel na previsão, ou seja, não é importante.

Espero que isto ajude!

Por favor, consulte o link a seguir para uma explicação elaborada!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

Isso pode ser apenas uma flutuação aleatória (por exemplo, se você tiver ntree pequeno).

Caso contrário, isso pode mostrar que você tem uma quantidade séria de paradoxos em seus dados, ou seja, pares de objetos com preditores quase idênticos e resultados muito diferentes. Nesse caso, eu verificaria duas vezes se o modelo realmente faz algum sentido e começaria a pensar em como conseguir mais atributos para resolvê-los.


2
Você poderia elaborar um pouco mais sobre os "paradoxos nos dados"? Não entendi direito e gostaria de entender o que você está explicando.
JEquihua 31/03
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.