Qual é a melhor maneira de visualizar os efeitos das categorias e sua prevalência na regressão logística?


11

Preciso apresentar informações sobre os principais preditores de votação de um candidato usando dados de uma pesquisa de opinião pública. Fiz uma regressão logística usando todas as variáveis ​​importantes, mas não consigo encontrar uma boa maneira de apresentar essas informações.

Meu cliente não se importa apenas com o tamanho do efeito, mas com a interação entre o tamanho do efeito e o tamanho da população com esse atributo.

Como posso lidar com isso em um gráfico? Alguma sugestão?

Aqui está um exemplo:

O da variável SEXO (Masculino = 1) quando a variável dependente é Voto / Não em um candidato é 2,3, que é um grande número depois de ter sido exponenciada e tratada como odds ratio ou probabilidade. No entanto, a sociedade em que essa pesquisa foi realizada tinha apenas 30% de homens. Portanto, embora o homem tenha apoiado bastante esse candidato, seus números são insignificantes para um candidato que tenta vencer uma eleição majoritária.β


FWIW, o uso do termo "interação" está incorreto (veja, por exemplo, aqui ou aqui ). Eu diria algo como '... mas sobre identificar situações em que o tamanho do efeito é grande e o tamanho da população com esse atributo também é grande'.
gung - Restabelece Monica

Respostas:


10

Concordo com @PeterFlom que o exemplo é estranho, mas, deixando de lado, percebo que a variável explicativa é categórica. Se isso é consistentemente verdadeiro, simplifica bastante isso. Eu usaria gráficos em mosaico para apresentar esses efeitos. Um gráfico de mosaico exibe proporções condicionais verticalmente, mas a largura de cada categoria é escalada em relação à sua proporção marginal (ou seja, incondicional) na amostra.

Aqui está um exemplo com os dados do desastre do Titanic, criados usando R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

insira a descrição da imagem aqui

À esquerda, vemos que as mulheres eram muito mais propensas a sobreviver, mas os homens representavam talvez cerca de 80% das pessoas a bordo. Portanto, aumentar a porcentagem de sobreviventes do sexo masculino significaria muito mais vidas salvas do que um aumento maior na porcentagem de sobreviventes do sexo feminino. Isso é um pouco análogo ao seu exemplo. Há outro exemplo à direita, onde a tripulação e a direção constituíam a maior proporção de pessoas, mas tinham a menor probabilidade de sobreviver. (Pelo que vale a pena, essa não é uma análise completa desses dados, porque classe e sexo também não eram independentes no Titanic, mas é o suficiente para ilustrar as idéias para essa pergunta.)


5

Estou um pouco curioso sobre o que a sociedade tinha apenas 10% de homens ... mas ...

Uma coisa que você pode fazer é traçar os índices de chances e rotular cada um com o tamanho da amostra.

Se você deseja que ambas as variáveis ​​sejam representadas graficamente, é possível fazer um gráfico de bolhas, com a posição de cada bolha no eixo y correspondendo ao tamanho da razão de chances e a área da bolha proporcional ao tamanho da amostra.


7
Talvez este .
Andre Silva
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.