É claro que a sugestão de Greg é a primeira coisa a tentar: a regressão de Poisson é o modelo natural em muitos aspectos concretos. situações.
No entanto, o modelo que você está sugerindo pode ocorrer, por exemplo, quando você observa dados arredondados:
com erros normais do iid .ϵ i
YEu= ⌊ a xEu+ b + ϵEu⌋ ,
ϵEu
Eu acho que é interessante dar uma olhada no que pode ser feito com isso. Denoto por o cdf da variável normal padrão. Se , então
usando notações familiares do computador.ϵ ∼ N ( 0 , σ 2 ) P ( ⌊ a x + b + ϵ ⌋ = k )Fε ~ N( 0 , σ2)
P(⌊ax+b+ϵ⌋=k)=F(k−b+1−axσ)−F(k−b−axσ)=pnorm(k+1−ax−b,sd=σ)−pnorm(k−ax−b,sd=σ),
Você observa pontos de dados . A probabilidade do log é dada por
Isso não é idêntico aos mínimos quadrados. Você pode tentar maximizar isso com um método numérico. Aqui está uma ilustração em R:(xi,yi)
ℓ(a,b,σ)=∑ilog(F(yi−b+1−axiσ)−F(yi−b−axiσ)).
log_lik <- function(a,b,s,x,y)
sum(log(pnorm(y+1-a*x-b, sd=s) - pnorm(y-a*x-b, sd=s)));
x <- 0:20
y <- floor(x+3+rnorm(length(x), sd=3))
plot(x,y, pch=19)
optim(c(1,1,1), function(p) -log_lik(p[1], p[2], p[3], x, y)) -> r
abline(r$par[2], r$par[1], lty=2, col="red")
t <- seq(0,20,by=0.01)
lines(t, floor( r$par[1]*t+r$par[2]), col="green")
lm(y~x) -> r1
abline(r1, lty=2, col="blue");
Em vermelho e azul, as linhas encontradas por maximização numérica dessa probabilidade e mínimos quadrados, respectivamente. A escada verde é para encontrada a partir da probabilidade máxima ... isso sugere que você poderia usar mínimos quadrados, até uma tradução de por 0,5 e obter aproximadamente o mesmo resultado; ou, esses mínimos quadrados se encaixam bem no modelo
onde é o número inteiro mais próximo. Os dados arredondados são tão frequentemente encontrados que tenho certeza de que isso é conhecido e que foi estudado extensivamente ...⌊ a x + b ⌋ a , b b Y i = [ a x i + b + ϵ i ] , [ x ] = ⌊ x + 0,5 ⌋ax+b⌊ax+b⌋a,bb
Yi=[axi+b+ϵi],
[x]=⌊x+0.5⌋