Essa resposta vem em duas partes, a primeira uma resposta direta à pergunta e a segunda um comentário sobre o modelo que você está propondo.
A primeira parte refere-se ao uso de Numbers
como deslocamento, além de tê-lo nos rhs da equação. O efeito de fazer isso será simplesmente subtrair 1 do coeficiente estimado de Numbers
, revertendo assim o efeito do deslocamento e, de outra forma, não alterará os resultados. O exemplo a seguir, com algumas linhas de saída irrelevante removidas, demonstra isso:
library(MASS)
Numbers <- rpois(100,12)
p <- 1 / (1 + exp(0.25*Numbers))
y <- rbinom(100, Numbers, p)
Incident <- pmin(y, 1)
> summary(glm(Incident~Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.2181
Numbers -0.11364 0.06585 -1.726 0.0844 . <= COEFFICIENT WITH NO OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 135.37 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
> summary(glm(Incident~Numbers, offset=Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.218
Numbers -1.11364 0.06585 -16.911 <2e-16 *** <= COEFFICIENT WITH OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 342.48 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
Observe como tudo é o mesmo, exceto o coeficiente de números e o desvio nulo (e a estatística t, porque ainda está testando contra 0 em vez de -1).
t1 - ( 1 - pt)NtNttpttregistro( 1 - ( 1 - pt)Nt) / Ntregistro( 1 - pt)tNtNt
Pode-se também suspeitar que a probabilidade por paciente varia de paciente para paciente, o que levaria a um modelo hierárquico mais complexo, mas não vou abordar isso aqui.
De qualquer forma, dado esse e o intervalo limitado do número de pacientes que você observa, em vez de usar um modelo linear na escala logit, talvez seja melhor não ser paramétrico sobre o relacionamento e agrupar o número de pacientes em três ou mais pacientes. quatro grupos, por exemplo, 10-11, 12-13, 14-15 e 16-17, constroem variáveis fictícias para esses grupos e executam a regressão logística com as variáveis fictícias no lado direito. Isso permitirá melhor a captura de relacionamentos não lineares, como "o sistema está sobrecarregado em torno de 16 pacientes e os incidentes começam a aumentar significativamente". Se você tiver uma gama muito maior de pacientes, sugiro um modelo aditivo generalizado, por exemplo, 'gam' do pacote 'mgcv'.