Qual é o significado dos coeficientes de regressão logística?


42

Atualmente, estou lendo um artigo sobre o local e a preferência de voto nas eleições de 2000 e 2004. Nele, há um gráfico que exibe os coeficientes de regressão logística. De cursos anos atrás e um pouco de leitura, Entendo a regressão logística como uma maneira de descrever a relação entre várias variáveis ​​independentes e uma variável de resposta binária. O que me deixa confuso é que, dada a tabela abaixo, porque o Sul tem um coeficiente de regressão logística de 0,903, isso significa que 90,3% dos sulistas votam republicanos? Devido à natureza logística da métrica, essa correlação direta não existe. Em vez disso, suponho que você só pode dizer que o sul, com 0,903, vota mais republicano do que as montanhas / planícies, com a regressão de 0,506. Dado que este último é o caso, como sei o que é significativo e o que não é e é possível extrapolar uma porcentagem de votos republicanos dado esse coeficiente de regressão logística. Tabela mostrando os coeficientes de regressão logística

Como observação, edite minha postagem se algo estiver incorreto


Esta é mais uma pergunta de seguimento (e provavelmente não devo publicá-la), mas você descobriu uma boa maneira de "é possível extrapolar uma porcentagem" porque é exatamente isso que estou procurando.
Stefan Andersson

2
Eu acho que seria melhor para você formular isso como uma pergunta autônoma e publicá-la separadamente, e não como uma resposta aqui.
cardeal

Se alguém está se perguntando sobre o jornal, é SC McKee e JM Teigen's Probing the red and blues: seccionalismo e localização dos eleitores nas eleições presidenciais de 2000 e 2004 nos EUA (2009) Geografia Política
Alex Nelson

Respostas:


36

Que o autor tem forçado alguém tão atencioso como você ter uma pergunta como esta é a ilustração convincente de por que a prática - ainda maneira muito comum - de limitar a apresentação dos resultados do modelo de regressão a uma tabela como esta é tão inaceitável.

  1. Você pode, como apontado, tentar transformar o coeficiente de logit em alguma indicação significativa do efeito estimado para o preditor em questão, mas isso é complicado e não transmite informações sobre a precisão da previsão, o que geralmente é bastante importante em um modelo de regressão logística (em particular na votação).

  2. Além disso, o uso de vários asteriscos para relatar "níveis" de significância reforça o equívoco de que os valores de p são algum índice significativo do tamanho do efeito ("uau - esse tem 3 asteriscos !!"); pelo amor de Deus, entre 10.000 e 20.000, diferenças completamente triviais serão "significativas" a p <0,001 blá blá.

  3. Não há absolutamente nenhuma necessidade de se mistificar dessa maneira. O modelo de regressão logística é uma equação que pode ser usada (por meio de cálculo determinado ou simulação ainda melhor) para prever a probabilidade de um resultado condicional aos valores especificados para os preditores, sujeitos a erro de medição. Então o pesquisador deve relatarqual é o impacto dos preditores de interesse na probabilidade da variável resultado de interesse e no IC associado, medidos em unidades cuja importância prática pode ser facilmente compreendida. Para garantir uma apreensão pronta, os resultados devem ser exibidos graficamente. Aqui, por exemplo, o pesquisador poderia relatar que ser um rural em oposição a um eleitor urbano aumenta a probabilidade de votar no republicano, tudo igual, em X pontos pct (suponho que 17 em 2000; "dividir por 4" seja uma heurística razoável) +/- x% no nível 0,95 de confiança - se isso é algo que é útil saber.

  4. O relato de pseudo R ^ 2 também é um sinal de que o modelador está envolvido em ritual estatístico, em vez de qualquer tentativa de esclarecimento. Existem várias maneiras de calcular "pseudo R ^ 2"; alguém pode reclamar que o usado aqui não está especificado, mas por que se preocupar? Todos estão quase sem sentido. A única razão pela qual alguém usa o pseudo R ^ 2 é que eles ou o revisor que os está torturando aprenderam (provavelmente há 25 ou mais anos atrás) que a regressão linear OLS é o santo graal das estatísticas e acha que a única coisa que alguém está tentando descobrir é "variação explicada". Existem várias maneiras defensáveis ​​de avaliar a adequação do ajuste geral do modelo à análise logística, e a razão de probabilidade transmite informações significativas para comparar modelos que refletem hipóteses alternativas. King, G. Como não mentir com estatísticas. Sou. J. Pol. Sci. 30, 666-687 (1986).

  5. Se você ler um artigo no qual os relatórios estão mais ou menos confinados a uma tabela como essa, não se confunda, não se deixe intimidar e, definitivamente, não fique impressionado; em vez disso, fique com raiva e diga ao pesquisador que ele está fazendo um péssimo trabalho (especialmente se ele ou ela está poluindo seu ambiente intelectual local com misticismo e admiração - incrível quantos pensadores completamente medíocres induzem as pessoas inteligentes a pensarem que sabem algo apenas b / c eles podem produzir uma tabela que este último não consegue entender). Para exposições inteligentes e moderadas dessas idéias, consulte King, G., Tomz, M. e Wittenberg., J. Aproveitando ao máximo as análises estatísticas: aprimorando a interpretação e a apresentação . Sou. J. Pol. Sci. 44, 347-361 (2000); e Gelman, A., Pasarica, C. e Dodhia, R.Vamos praticar o que pregamos: transformando tabelas em gráficos . Sou. Stat. 56, 121-130 (2002).


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
heurística: divida por 4 - logit coeff / 4 é aproximadamente pct-pt diff no prob. de 1 unidade de mudança. Isso não é o mesmo que dizer "a pessoa com βsubn charcteristic = z é x% provável." Não apenas (como observado) é necessário adicionar βsub0 e subtrair a probabilidade associada à classe ref. Também é necessário levar em consideração a colinearidade dos preditores. B / c sendo sul correlaciona-se com outros preditores, não será verdade que prob. O repub de votação sulista é βsub0 - chances de log transformadas para NE mais chances de log transformadas para sul. Melhor dizer, "tudo o resto igual, sendo do sul prevê x pct mudança ponto no prov de"
dmk38

1
'As probabilidades reais passaram de 0,43 para 1'. De 0,43 vieram em primeiro lugar?
Monica Heddneck 12/06

0.30.3/(10.3)0.43

6

Os coeficientes na regressão logística representam a tendência de uma determinada região / demografia votar no republicano, em comparação com uma categoria de referência. Um coeficiente positivo significa que é mais provável que a região vote no republicano e vice-versa por um coeficiente negativo; um valor absoluto maior significa uma tendência mais forte que um valor menor.

As categorias de referência são "Nordeste" e "eleitor urbano", portanto todos os coeficientes representam contrastes com esse tipo de eleitor em particular.

Em geral, também não há restrição quanto aos coeficientes em uma regressão logística em [0, 1], mesmo em valor absoluto. Observe que o próprio artigo da Wikipedia tem um exemplo de regressão logística com coeficientes de -5 e 2.


5

Você também perguntou "como sei o que é significativo e o que não é". (Suponho que você queira dizer estatisticamente significativo, já que a importância prática ou substantiva é outra questão.) Os asteriscos na tabela se referem à nota de rodapé: alguns efeitos são observados como tendo pequenos valores de p . Estes são obtidos usando um teste de Wald da significância de cada coeficiente. Supondo amostragem aleatória, p <0,05 significa que, se não houvesse esse efeito na população maior, a probabilidade de ver uma conexão tão forte quanto a observada, ou mais forte, em uma amostra desse tamanho seria menor que 0,05 . Você verá muitos tópicos neste site discutindo o ponto sutil, mas importante, relacionado ao fato de que p <0,05 não significa que há uma probabilidade de 0,05 de não haver conexão na população maior.


5

Permitam-me apenas enfatizar a importância do que rolando2 e dmk38 observaram: o significado geralmente é mal interpretado e existe um alto risco de que isso aconteça com a apresentação tabular dos resultados.

Paul Schrodt ofereceu recentemente uma boa descrição do problema:

Os pesquisadores acham quase impossível aderir à interpretação correta do teste de significância. O valor p indica apenas a probabilidade de obter um resultado nas condições [geralmente] completamente irrealistas da hipótese nula. O que não é o que você deseja saber - geralmente você quer saber a magnitude do efeito de uma variável independente, dados os dados. Essa é uma questão bayesiana, não uma questão freqüentista. Em vez disso, vemos - constantemente - o valor-p interpretado como se desse força à associação: este é o onipresente culto místico das estrelas e dos valores-p que permeia nossas revistas. (Fn) Não é isso que o valor-p diz , nem nunca será.

Na minha experiência, é quase impossível evitar esse erro: mesmo analistas muito cuidadosos, que estão plenamente conscientes do problema, geralmente trocam de modo quando discutem verbalmente seus resultados, mesmo que tenham evitado o problema em uma exposição escrita. E não vamos nem especular sobre as milhares de horas e galões de tinta que gastamos corrigindo isso em trabalhos de pós-graduação.

(fn) A nota de rodapé também informa sobre outra questão, mencionada por dmk38: “[o onipresente culto místico das estrelas e valores P] substituiu o culto anterior - e igualmente difundido - do mais alto R2, demolido por King (1986) . ”


oh-- Acabei de adicionar King cite à minha resposta editada. O artigo realmente destrói a mania R ^ 2 (ainda endêmica da econometria) mesmo onde a estatística tem um significado - para a regressão OLS. King observa também que esse pseudo R ^ 2 é sem sentido fabricado para estender a falta de consideração associada à "variação explicada".
dmk38
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.