A resposta acima está correta. Para referência, aqui estão alguns códigos R de trabalho elaborados para computá-lo. Eu tenho a liberdade de adicionar um intercepto, porque você provavelmente quer um deles.
## make some data
set.seed(1234)
N <- 2000
x1 <- rnorm(N)
x2 <- rnorm(N)
## create linear predictor
lpred <- 0.5 + 0.5 * x1 + 0.25 * x2
## apply inverse link function
ey <- 1/(1 + exp(-lpred))
## sample some dependent variable
y <- rbinom(N, prob=ey, size=rep(1,N))
dat <- matrix(c(x1, x2, y), nrow=N, ncol=3)
colnames(dat) <- c('x1', 'x2', 'y')
Agora construa uma função de probabilidade de log para maximizar, aqui usando dbinom
porque está lá e somando os resultados
## the log likelihood function
log.like <- function(beta, dat){
lpred <- beta[1] + dat[,'x1'] * beta[2] + dat[,'x2'] * beta[2]**2
ey <- 1/(1 + exp(-lpred))
sum(dbinom(dat[,'y'], prob=ey, size=rep(1,nrow(dat)), log=TRUE))
}
e ajuste o modelo pela máxima probabilidade. Não me preocupei em oferecer um gradiente ou escolher um método de otimização, mas convém fazer as duas coisas.
## fit
res <- optim(par=c(1,1), ## starting values
fn=log.like,
control=list(fnscale=-1), ## maximise not minimise
hessian=TRUE, ## for SEs
dat=dat)
Agora dê uma olhada nos resultados. As estimativas do parâmetro ML e SEs assintóticas são:
## results
data.frame(coef=res$par,
SE=sqrt(diag(solve(-res$hessian))))
qual deveria ser
## coef SE
## 1 0.4731680 0.04828779
## 2 0.5799311 0.03363505
ou há um erro (que é sempre possível).
As advertências usuais sobre erros padrão derivados de Hessian se aplicam.