Considere uma regressão logística nesses dados:
X1 X2 Y
1 0 0
1 0 1
0 1 0
0 1 0
0 1 0
0 1 1
1 1 1
R aceita três representações diferentes dos dados: uma linha por entrada da tabela e duas representações condensadas (uma com pesos, outra com sucessos e falhas). Na minha opinião, essas três especificações devem ser todas matematicamente iguais: os dados são as mesmas 7 observações e são apresentadas ao R em diferentes formatos.
data1 <- data.frame(x1=c(1,1,0,0,0,0,1), x2=c(0,0,1,1,1,1,1), y=c(0,1,0,0,0,1,1))
data2 <- data.frame(x1=c(0,1,0,1), x2=c(0,0,1,1), y=c(0,0.5,0.25,1), w=c(0,2,4,1))
data3x <- data.frame(x1=c(0,1,0,1), x2=c(0,0,1,1))
data3y <- cbind(c(0,1,1,1), c(0,1,3,0))
model1 <- glm(y~x1+x2, data=data1, family="binomial")
model2 <- glm(y~x1+x2, data=data2, family="binomial", weight=w)
model3 <- glm(data3y~data3x$x1+data3x$x2, family="binomial")
Os modelos 2 e 3 são os mesmos, o que faz sentido. Mas o Modelo 1 é diferente dos modelos 2 e 3 e não consigo entender por que os mesmos dados devem retornar estatísticas diferentes do modelo (coeficientes, desvio nulo e residual) que os outros. Os modelos 2 e 3 usam apenas uma representação diferente dos mesmos dados.
Pode ser um arenque vermelho, mas o Modelo 1 tem seus coeficientes alterados em 4 unidades em comparação com o Modelo 2, que é exatamente a diferença no número de linhas (preenchidas) / graus residuais de liberdade entre as duas.
> model1
Call: glm(formula = y ~ x1 + x2, family = "binomial", data = data1)
Coefficients:
(Intercept) x1 x2
-19.66 19.66 18.57
Degrees of Freedom: 6 Total (i.e. Null); 4 Residual
Null Deviance: 9.561
Residual Deviance: 7.271 AIC: 13.27
> model2
Call: glm(formula = y ~ x1 + x2, family = "binomial", data = data2,
weights = w)
Coefficients:
(Intercept) x1 x2
-23.66 23.66 22.57
Degrees of Freedom: 2 Total (i.e. Null); 0 Residual
Null Deviance: 2.289
Residual Deviance: 3.167e-10 AIC: 9.112
[1, 0, .5]
nível de resposta recebe um peso de 2, indicando 2 níveis,y
considerando 0 e 1 como resposta média. No entanto, não há[1,0,.5]
níveis de resposta nos dados que você mostra.