Como quantificar a importância variável relativa na regressão logística em termos de p?


11

Suponha que um modelo de regressão logística seja usado para prever se um comprador online comprará um produto (resultado: compra), depois que ele clicar em um conjunto de anúncios online (preditores: Ad1, Ad2 e Ad3).

O resultado é uma variável binária: 1 (comprada) ou 0 (não comprada). Os preditores também são variáveis ​​binárias: 1 (clicada) ou 0 (não clicada). Portanto, todas as variáveis ​​estão na mesma escala.

Se os coeficientes resultantes de Ad1, Ad2 e Ad3 forem 0,1, 0,2 e 03, podemos concluir que Ad3 é mais importante que Ad2 e Ad2 é mais importante que Ad1. Além disso, como todas as variáveis ​​estão na mesma escala, os coeficientes padronizados e não padronizados devem ser os mesmos, e podemos concluir ainda que Ad2 é duas vezes importante que Ad1 em termos de influência no nível logit (log-odds).

Mas, na prática, nos preocupamos mais com como comparar e interpretar a importância relativa das variáveis ​​em termos do nível p (probabilidade da compra), não do logit (log-odds).

Assim, a pergunta é: existe alguma abordagem para quantificar a importância relativa dessas variáveis ​​em termos de p?


Achei este artigo útil. Ele descreve bem seis métodos diferentes que podem ser usados ​​para definir a importância do preditor a partir de um modelo de regressão logística, juntamente com os prós e contras associados a cada método.
gchaks

Respostas:


5

Para modelos lineares, você pode usar o valor absoluto das estatísticas t para cada parâmetro do modelo.

Além disso, você pode usar algo como um forrest aleatório e obter uma lista muito boa de importâncias de recursos.

Se você estiver usando o R check-out ( http://caret.r-forge.r-project.org/varimp.html ), se você estiver usando o python, confira ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

EDITAR:

Como o logit não tem uma maneira direta de fazer isso, você pode usar uma curva ROC para cada preditor.

Para classificação, a análise da curva ROC é realizada em cada preditor. Para dois problemas de classe, uma série de pontos de corte é aplicada aos dados do preditor para prever a classe. A sensibilidade e especificidade são calculadas para cada ponto de corte e a curva ROC é calculada. A regra trapezoidal é usada para calcular a área sob a curva ROC. Esta área é usada como a medida de importância variável

Um exemplo de como isso funciona em R é:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
Obrigado pela sua resposta! Sim, é fácil para o modelo linear e a floresta aleatória. Você tem alguma idéia de como fazê-lo no caso de regressão logística? Muito obrigado!
xyhzc

Veja a edição acima.
Mike1886

Parece que a pergunta sobre comparações em nível de proporção ainda não foi respondida. Mesmo sabendo que a AUC está, digamos, .6 usando apenas x1 e .9 usando apenas x2, dificilmente podemos dizer que a importância de x2 é, portanto, 50% maior. Nem, eu acho, que seja (1 - 10% / 40%) = 75% maior. Nem podemos fazer algo análogo usando apenas sensibilidade ou apenas especificidade. Também tenho dúvidas sobre a aplicabilidade da estatística Wald aqui. Mais úteis podem ser explicações sobre coeficientes padronizados (consulte o livro on-line de Scott Menard).
Roland2

Obrigado rolando2! As variáveis ​​nesta pergunta são todas medidas nas mesmas métricas, portanto os coeficientes padronizados e não padronizados devem ser os mesmos. Além disso, embora possamos usar os coeficientes padronizados para comparar as variáveis ​​no nível logit (log-odds), como podemos interpretar as variáveis ​​no P (a probabilidade de compra dos compradores on-line neste caso)? Muito obrigado!
xyhzc 10/07/2014

1
Não vejo isso responder à pergunta.
HelloWorld 02/02

4

Como você estava solicitando especificamente uma interpretação na escala de probabilidade: Em uma regressão logística, a probabilidade estimada de sucesso é dada por

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

Uma pessoa que clicou apenas no anúncio 3:

exp(0.3)1+exp(0.3)=0.57

No entanto, se a pessoa clicou no anúncio 1 ou no anúncio 3, mas também no anúncio 2 (se este for um cenário plasubil), as probabilidades se tornarão

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

Nesse caso, a mudança na probabilidade é de 0,05, mas geralmente essa mudança não é a mesma para diferentes combinações de níveis. (Você pode ver isso facilmente se, por exemplo, usar a mesma abordagem acima, mas com os coeficientes 0,1, 1,5, 0,3.) Assim, a importância de uma variável na escala de probabilidade depende dos níveis observados das outras variáveis. Isso pode dificultar (impossível?) Propor uma medida de importância variável absoluta e quantitativa na escala de probabilidade.


Obrigado pela sua explicação! Então você sabe que existe algum método indireto para quantificar a importância relativa dos preditores? mike1886 mencionou a "análise da curva ROC" em sua resposta, mas possui alguns problemas, como mencionado por rolando2. Muito obrigado!
xyhzc
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.