Classificação de variáveis ​​categóricas em regressão logística


8

Estou fazendo uma pesquisa usando regressão logística. 10 variáveis ​​influenciam a variável dependente. Um dos itens acima é categórico (por exemplo, entrega expressa, entrega padrão, etc.). Agora, quero classificar essas categorias com base na "força" de seus efeitos na variável dependente.

Todos eles são significativos (pequeno valor p), mas acho que não posso simplesmente usar o valor das probabilidades para fins de classificação. De alguma forma, preciso descobrir se cada categoria também é significativamente diferente das outras categorias. Isso está correto?

Eu li sobre a possibilidade de centralizar a variável. Isso é realmente uma opção? Não quero que o restante do meu modelo seja afetado.


Saída de Stata para apoiar meu comentário no post de @ subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

Respostas:


1

Como você está interessado em classificar as categorias, convém recodificar as variáveis ​​categóricas em várias variáveis ​​binárias separadas.

Exemplo: Crie uma variável binária para entrega expressa - que levaria o valor 1 para casos de entrega expressa e 0 caso contrário. Da mesma forma, uma variável binária para entrega padrão.

Para cada uma dessas variáveis ​​binárias recodificadas, é possível calcular os efeitos marginais, conforme indicado abaixo:

Fórmula

Deixe-me explicar um pouco sobre a equação acima: digamos que d é a variável binária recodificada para entrega expressa

Fórmula é a probabilidade de evento avaliado em média quando d = 1

Fórmula é a probabilidade de evento avaliado em média quando d = 0

Depois de calcular os efeitos marginais para todas as categorias (variáveis ​​binárias recodificadas), você pode classificá-los.


Muito obrigado pelo seu post, subra. Tentei seguir atentamente as suas instruções e realizei o comando ". Margins, dydx (ExpDel)" em stata. Você encontra a saída no meu post original. Preciso executar esse comando em todas as minhas variáveis ​​categóricas (e agora binárias) que gostaria de classificar e, em seguida, só preciso comparar o valor dy / dx? Quanto maior, maior a influência na minha variável dependente? Muito obrigado!
Lukas

@ Lukas: Sim, você está correto. No Stata, para dados discretos, as 'margens' realmente calculam o efeito de uma alteração discreta da covariável. Portanto, você só precisa comparar o dy / dx (das margens) para todas as categorias (agora binárias). Quanto maior o valor, mais influência.
subra

@ subra: Obrigado por esclarecer. O procedimento acima mencionado leva à mesma classificação, como se eu apenas classificasse os respectivos coeficientes de logit. Ainda não sei ao certo por que me refiro aos efeitos marginais para fins de classificação e não aos coeficientes de logit. Você tem uma fonte que possa recomendar para leituras adicionais? Além disso, não sei por que devo usar o comando stata mencionado acima e não adicionar, por exemplo, "atmeans" para usar os meios das outras variáveis ​​para fins de comparação. Muito obrigado.
Lukas

@ Lucas: Sim, você é rito. Se você deseja apenas classificar os preditores, os coeficientes de logit devem ser suficientes. Não estou claro com a sua segunda parte da pergunta. se você está perguntando por que precisamos avaliar os efeitos marginais, verifique o seguinte post: stats.stackexchange.com/questions/167811/…
subra

-2

Você pode ajustar o modelo de regressão logística usando apenas 1 variável no momento e examinar o R2 ajustado.

Aquele que explica a maior parte da variação deve ter mais impacto no modelo ...

Estou apenas adivinhando, não tenho certeza de que é uma solução rigorosa ...


4
Não, isso apenas forneceria medidas de associação marginal.
Frank # # # # Harrell Harrell

-2

Essa é uma pergunta comum com várias respostas. O mais simples é usar recursos padronizados; o valor absoluto dos coeficientes que retornam pode, então, ser vagamente interpretado como 'maior' = 'mais influência' no log (probabilidades). Na maioria das vezes, o uso de pontuações padrão não deve afetar seus resultados gerais (a curva ROC deve ser a mesma; a matriz de confusão deve ser a mesma, desde que você escolha um limite de decisão comparável). Eu costumo calcular a regressão nos dois sentidos; uma vez usando pontuações brutas (para obter a equação de previsão que usarei) e uma segunda vez usando pontuações padronizadas para ver quais são as maiores.

Quanto aos preditores categóricos, presumo (mas não marquei) que o mesmo se aplica ao usar preditores normalizados.

Se você ainda não o fez, também deve considerar o uso de regularização: Laço / cume / rede elástica. Isso ajudará a abandonar recursos fracos, irrelevantes ou redundantes, deixando você com um modelo mais parcimonioso.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.