Os coeficientes de regressão logística têm um significado?


14

Eu tenho um problema de classificação binária de vários recursos. Os coeficientes de uma regressão logística (regularizada) têm um significado interpretável?

Eu pensei que eles poderiam indicar o tamanho da influência, considerando que os recursos são normalizados de antemão. No entanto, no meu problema, os coeficientes parecem depender sensivelmente dos recursos que seleciono. Até o sinal dos coeficientes muda com os diferentes conjuntos de recursos escolhidos como entrada.

Faz sentido examinar o valor dos coeficientes e qual é a maneira correta de encontrar os coeficientes mais significativos e indicar seu significado em palavras ? Alguns modelos ajustados e seus sinais dos coeficientes estão errados - mesmo quando eles se encaixam nos dados?

(A correlação mais alta que tenho entre os recursos é de apenas 0,25, mas isso certamente desempenha um papel?)


Você poderia esclarecer o que você quer dizer com regularizado? Você tem um termo de penalidade de L2 e, em caso afirmativo, procurou o fator ideal, por exemplo, por validação cruzada?
seanv507

Sim, permito termos de penalidade de L2 nos coeficientes. Pesquisei o fator de regularização ideal, mas ainda não usei a seleção de recursos (como a seleção direta). No entanto, isso me deixa inseguro, pois os coeficientes dependem tão sensivelmente da escolha dos recursos que incluo. Supondo que cada característica tenha um efeito positivo ou negativo da classe positiva, como posso determinar sua força e direção?
Gerenuk 01/07

Respostas:


14

Os coeficientes da saída têm um significado, embora não seja muito intuitivo para a maioria das pessoas e certamente não para mim. É por isso que as pessoas as mudam para odds ratio. No entanto, o log do odds ratio é o coeficiente; equivalentemente, os coeficientes exponenciados são os odds ratio.

Os coeficientes são mais úteis para se conectar a fórmulas que fornecem probabilidades previstas de estar em cada nível da variável dependente.

por exemplo, em R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

A estimativa de parâmetro para a idade é 1,64. O que isto significa? Bem, se você combiná-lo com a estimativa de parâmetro para a interceptação (-21.24), você pode obter uma fórmula que preveja a probabilidade de menarca:

P(M)=11+e21,24-1,64umage

e1,64=5.16


4

Interpretar diretamente os coeficientes é difícil e pode ser enganoso. Você não tem garantias de como os pesos são atribuídos entre as variáveis.

Exemplo rápido, semelhante à situação que você descreve: trabalhei em um modelo de interação dos usuários com um site. Esse modelo incluiu duas variáveis ​​que representam o número de "cliques" durante a primeira hora e durante a segunda hora de uma sessão do usuário. Essas variáveis ​​são altamente correlacionadas entre si. Se ambos os coeficientes para essa variável forem positivos, poderíamos nos enganar facilmente e acreditar que talvez um coeficiente mais alto indique uma importância "mais alta". No entanto, adicionando / removendo outrosvariáveis, poderíamos facilmente terminar com um modelo em que a primeira variável tivesse sinal positivo e a outra negativa. O raciocínio a que chegamos foi que, como havia algumas correlações significativas (embora baixas) entre a maioria dos pares de variáveis ​​disponíveis, não poderíamos ter nenhuma conclusão segura sobre a importância das variáveis ​​usando os coeficientes (prazer em aprender com a comunidade se esta interpretação está correta).

Se você deseja obter um modelo onde é mais fácil interpretar uma idéia, seria usar Lasso (minimização da norma L1). Isso leva a soluções esparsas, onde as variáveis ​​são menos correlacionadas entre si. No entanto, essa abordagem não escolheria facilmente as duas variáveis ​​do exemplo anterior - uma seria zero.

Se você quiser apenas avaliar a importância de variáveis ​​específicas ou conjuntos de variáveis, eu recomendaria usar diretamente alguma abordagem de seleção de recursos. Tais abordagens levam a percepções muito mais significativas e até classificações globais da importância das variáveis ​​com base em algum critério.


0

Os coeficientes certamente têm um significado. Em alguns pacotes de software, o modelo pode ser direcionado de duas maneiras para produzir um dos dois tipos de coeficientes. Por exemplo, no Stata, pode-se usar o comando Logistic ou o comando logit; ao usar um, o modelo fornece coeficientes tradicionais, enquanto no outro, o modelo fornece razões de chances.

Você pode achar que um é muito mais significativo para você do que o outro.

Sobre sua pergunta de que "... os coeficientes parecem depender da sensibilidade ...".

Você está dizendo que os resultados dependem de quais variáveis ​​você coloca no modelo?

Se sim, sim, isso é um fato da vida quando se faz uma análise de regressão. A razão para isso é que a análise de regressão está analisando vários números e processando-os de maneira automatizada.

Os resultados dependem de como as variáveis ​​estão relacionadas entre si e de quais variáveis ​​não são medidas. É tanto uma arte quanto uma ciência.

Além disso, se o modelo tem muitos preditores em comparação com o tamanho da amostra, os sinais podem mudar de uma maneira louca - acho que isso está dizendo que o modelo está usando variáveis ​​que têm um pequeno efeito para "ajustar" suas estimativas daquelas que têm um grande efeito (como um botão de volume pequeno para fazer pequenas calibrações). Quando isso acontece, tendem a não confiar nas variáveis ​​com pequenos efeitos.

Por outro lado, pode ser que os sinais mudem inicialmente quando você adiciona novos preditores, porque está se aproximando da verdade causal.

Por exemplo, vamos imaginar que o conhaque da Groenlândia possa ser ruim para a saúde, mas a renda é boa para a saúde. Se a renda é omitida e as pessoas mais ricas bebem conhaque, o modelo pode "captar" a influência da renda omitida e "dizer" que o álcool é bom para sua saúde.

Não tenha dúvidas, é um fato da vida que os coeficientes dependem das demais variáveis ​​incluídas. Para saber mais, consulte "viés variável omitido" e "relacionamento falso". Se você nunca encontrou essas idéias antes, tente encontrar cursos de introdução às estatísticas que atendam às suas necessidades - isso pode fazer uma enorme diferença na execução dos modelos.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.