Saída da previsão de regressão logística

14

Eu criei uma regressão logística usando o seguinte código:

full.model.f = lm(Ft_45 ~ ., LOG_D)
base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg)
step(base.model.f, scope=list(upper=full.model.f, lower=~1),
     direction="forward", trace=FALSE)

Em seguida, usei a saída para criar um modelo final:

final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + 
                           AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + 
                           Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + 
                           IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg +
                           OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg)

Em seguida, previ os resultados para um conjunto diferente de dados usando a função de previsão:

log.pred.f.v <- predict(final.model.f, newdata=LOG_V)

Consegui usar uma curva ROC agradável e criei uma tabela para estabelecer a sensibilidade e a especificidade que me dão respostas que eu esperaria.

No entanto, o que estou tentando fazer é estabelecer para cada linha de dados qual é a probabilidade de Ft_45 ser 1. Se eu olhar para a saída de log.pred.fv, obtenho, por exemplo:

1 -0.171739593    
2 -0.049905948    
3 0.141146419    
4 0.11615669    
5 0.07342591    
6 0.093054334    
7 0.957164383    
8 0.098415639    
.
.
.
104 0.196368229    
105 1.045208447    
106 1.05499112

Como só tenho uma idéia provisória do que estou fazendo, estou lutando para entender como interpretar os valores negativos e maiores que 1, pois esperaria que a probabilidade estivesse entre 0 e 1.

Portanto, minha pergunta é: estou apenas perdendo uma etapa em que preciso transformar a saída ou estou completamente errado. Agradecemos antecipadamente por qualquer ajuda que você possa oferecer.

r probability logistic

— SeBee
fonte

23

Primeiro, parece que você construiu um modelo de regressão linear regular, não um modelo de regressão logística. Para construir um modelo de regressão logística, você precisa usar glm()com family="binomial" , não lm().

$x_1, x_2$ $x_3$ $y$

logit <- glm(y~x1+x2+x3,family="binomial")

$\beta_0, \beta_1, \beta_2$ $\beta_3$

Se você o fizer predict(logit), R calculará e retornará b0 + b1*x1 + b2*x2 + b3*x3.

$y = log(\frac{p}{1-p}) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3$

$p$

No R, você pode fazer algo assim:

pred <- predict(logit,newdata=data) #gives you b0 + b1x1 + b2x2 + b3x3
probs <- exp(pred)/(1+exp(pred)) #gives you probability that y=1 for each observation

— Ben F
fonte

Muito obrigado, primeiro por corrigir meu código e, em segundo lugar, por explicar como obter as probabilidades em R. Eu tentei e funciona perfeitamente. Eu gostaria de ter perguntado semanas atrás !!

— SeBee

1

Pode ser reduzido com probs <- exp(predict(logit, type = "response" , newdata=data)ou pelo menos `probs <- 1 / (1 + exp (-pred))

— snoram 26/10/17

11

Olhando para a documentação do predict.glm, parece tão fácil quanto usar um parâmetro extra na predictchamada:

 type = "response"

Veja a documentação:

type - o tipo de previsão necessária. O padrão está na escala dos preditores lineares; a "resposta" alternativa está na escala da variável de resposta. Assim, para um modelo binomial padrão, as previsões padrão são de probabilidades logarítmicas (probabilidades na escala logit) e type = "response" fornece as probabilidades preditas. A opção "terms" retorna uma matriz que fornece os valores ajustados de cada termo na fórmula do modelo na escala preditora linear. O valor desse argumento pode ser abreviado

— Bulat
fonte