Primeiro, deixe-me dar uma base; Resumirei minhas perguntas no final.
A distribuição Beta, parametrizada por sua média e ϕ , possui Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , onde V ( μ ) = μ ( 1 - μ ) é a função de variância.
Em uma regressão beta (por exemplo, usando o pacote betareg em R), a regressão assume erros distribuídos em beta e estima os efeitos fixos e o valor de .
Na regressão glm, é possível definir uma distribuição "quase" com uma função de variação de . Portanto, aqui o modelo assume erros com a mesma função de variação que Beta. A regressão estima os efeitos fixos e a "dispersão" da distribuição quase.
Talvez esteja faltando algo importante, mas parece que esses dois métodos são essencialmente idênticos, talvez diferindo apenas no método de estimativa.
Eu tentei os dois métodos em R, regredindo em um DV chamado "Similarity", que está no intervalo :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
No entanto, nenhum desses valores é idêntico.
Isso ocorre porque a única coisa que realmente difere nos dois métodos é o seu procedimento de estimativa? Ou há alguma diferença mais fundamental que estou sentindo falta? Além disso, existe algum motivo para preferir um método ao outro?