Compreendendo as previsões da regressão logística


13

Minhas previsões provenientes de um modelo de regressão logística (glm em R) não são delimitadas entre 0 e 1 como eu esperava. Meu entendimento da regressão logística é que seus parâmetros de entrada e modelo são combinados linearmente e a resposta é transformada em probabilidade usando a função de link de logit. Como a função logit é delimitada entre 0 e 1, eu esperava que minhas previsões fossem delimitadas entre 0 e 1.

No entanto, não é isso que vejo quando implemento a regressão logística em R:

data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model    <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, 
                family = binomial(link = "logit"))
hist(predict(model))

insira a descrição da imagem aqui

Se alguma coisa a saída de prever (modelo) parece normal para mim. Alguém pode me explicar por que os valores que recebo não são probabilidades?


3
A resposta de Corone abaixo cobre muito bem os detalhes. A figura original que você tem presentes acima dos valores de log-odds no eixo-x, que pode ser matematicamente transformadas para probabilidades (ou seja, de acordo com a resposta de Corone, passando de volta através da função de ligação.)
James Stanley

Respostas:


16

o predict.glm método por padrão retorna os preditores na escala do preditivo linear. Ou seja, eles ainda não passaram pela função de link.

Experimentar

hist(predict(model, type = "response"))

em vez de

insira a descrição da imagem aqui


4
Você fez um ótimo trabalho ao dominar nossos recursos de marcação e ilustração em pouco tempo: esta resposta é um bom exemplo disso. Bem feito!
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.