Ao construir um modelo CART (especificamente árvore de classificação) usando rpart (em R), geralmente é interessante saber qual é a importância das várias variáveis introduzidas no modelo.
Assim, minha pergunta é: Que medidas comuns existem para classificar / medir a importância das variáveis participantes de um modelo CART? E como isso pode ser calculado usando R (por exemplo, ao usar o pacote rpart)
Por exemplo, aqui está um código fictício, criado para que você possa mostrar suas soluções. Este exemplo está estruturado para que fique claro que as variáveis x1 e x2 são "importantes", enquanto (em certo sentido) x1 é mais importante que x2 (já que x1 deve se aplicar a mais casos, portanto, influi mais na estrutura dos dados, então x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(as referências são sempre bem-vindas)