Temos dados com resultado binário e algumas covariáveis. Eu usei regressão logística para modelar os dados. Apenas uma análise simples, nada de extraordinário. O resultado final deve ser uma curva dose-resposta, onde mostramos como a probabilidade muda para uma covariável específica. Algo assim:
Recebemos algumas críticas de um revisor interno (não um estatístico puro) por escolher a regressão logística. A regressão logística assume (ou define) que o ponto de inflexão da curva em forma de S na escala de probabilidade está na probabilidade 0,5. Ele argumentou que não haveria razão para supor que o ponto de inflexão estivesse na probabilidade de 0,5 e deveríamos escolher um modelo de regressão diferente que permita que o ponto de inflexão varie de modo que a posição real seja orientada por dados.
A princípio, fui pego de surpresa pelo argumento dele, pois nunca pensei sobre esse assunto. Eu não tinha argumentos para justificar a suposição de que o ponto de inflexão está em 0,5. Depois de fazer algumas pesquisas, ainda não tenho resposta para essa pergunta.
Me deparei com a regressão logística de 5 parâmetros, para a qual o ponto de inflexão é um parâmetro adicional, mas parece que esse modelo de regressão é geralmente usado ao produzir curvas dose-resposta com um resultado contínuo. Não tenho certeza se e como isso pode ser estendido para variáveis de resposta binária.
Eu acho que minha pergunta principal é por que ou quando não há problema em assumir que o ponto de inflexão para uma regressão logística é de 0,5? Isso importa? Nunca vi alguém ajustando um modelo de regressão logística e discutindo explicitamente a questão do ponto de inflexão. Existem alternativas para criar uma curva de resposta à dose em que o ponto de inflexão não esteja necessariamente em 0,5?
Apenas para completar, o código R para gerar a imagem acima:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Editar 1:
Apenas para acrescentar o que Scortchi disse em um dos comentários: o revisor de fato argumentou que biologicamente é mais provável que a alteração na curvatura ocorra antes de 0,5. Portanto, sua resistência contra assumir que o ponto de inflexão está em 0,5.
Edição 2:
Como reação ao comentário de Frank Harrell:
Como exemplo, modifiquei meu modelo acima para incluir um termo quadrático e um cúbico gre
(que é a "dose" neste exemplo).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Apesar de provavelmente não ser significativo adicionar termos quadrático e cúbico gre
nesse caso, vemos que a forma da curva dose-resposta mudou. De fato, agora temos dois pontos de inflexão em cerca de 0,25 e perto de 0,7.