As estimativas dos coeficientes e as interceptações em regressão logística (e qualquer GLM) são encontradas via estimativa de máxima verossimilhança (MLE). Essas estimativas são indicadas com um chapéu sobre os parâmetros, algo como . Nosso parâmetro de interesse é denotado e geralmente é 0, pois queremos testar se o coeficiente difere de 0 ou não. Da teoria assintótica do MLE, sabemos que a diferença entre e será distribuída aproximadamente normalmente com média 0 (detalhes podem ser encontrados em qualquer livro de estatística matemática, como All of statistics, de Larry Wasserman ) . Lembre-se de que os erros padrão nada mais são do que q0 q q0σW=( β -β 0 )θ^θ0θ^θ0desvios padrão das estatísticas (Sokal e Rohlf escrevem em seu livro Biometry : "uma estatística é qualquer uma de muitas quantidades estatísticas calculadas ou estimadas", por exemplo, a média, mediana, desvio padrão, coeficiente de correlação, coeficiente de regressão, ...). Dividir uma distribuição normal com média 0 e desvio padrão por seu desvio padrão produzirá a distribuição normal padrão com média 0 e desvio padrão 1. A estatística Wald é definida como (por exemplo, Wasserman (2006): All of Statistics , páginas 153, 214-215):
ou
σW2=(β-β0)2
W=(β^−β0)seˆ(β^)∼N(0,1)
χ21χ22W2=(β^−β0)2Varˆ(β^)∼χ21
A segunda forma surge do fato de o quadrado de uma distribuição normal padrão ser a distribuição com 1 grau de liberdade (a soma de duas distribuições normais padrão ao quadrado seria uma com 2 graus de liberdade e assim por diante).
χ21χ22
Como o parâmetro de interesse geralmente é 0 (por exemplo, ), a estatística Wald simplifica para
Qual é o que você descreveu: A estimativa do coeficiente dividida por seu erro padrão.W = ββ0=0
W=β^seˆ(β^)∼N(0,1)
Quando é e quando usado um valor ?zt
A escolha entre um valor ou um valor depende de como o erro padrão dos coeficientes foi calculado. Como a estatística Wald é assintoticamente distribuída como uma distribuição normal padrão, podemos usar o score para calcular o valor- . Quando nós, além dos coeficientes, também temos que estimar a variação residual, um valor é usado em vez do valor . Nos mínimos quadrados ordinários (OLS, regressão linear normal), a matriz de variância-covariância dos coeficientes é ondeztzptzVar[β^|X]=σ2(X′X)−1σ2é a variação dos resíduos (que é desconhecida e deve ser estimada a partir dos dados) e é a matriz de projeto . No OLS, os erros padrão dos coeficientes são as raízes quadradas dos elementos diagonais da matriz de variância-covariância. Como não conhecemos , precisamos substituí-lo por sua estimativa , portanto: . Agora, esse é o ponto: como temos que estimar a variação dos resíduos para calcular o erro padrão dos coeficientes, precisamos usar um valor e a distribuição .Xσ2σ^2=s2 ttseˆ(βj^)=s2(X′X)−1jj−−−−−−−−−√tt
Na regressão logística (e poisson), a variação dos resíduos está relacionada à média. Se , a média é e a variação é portanto, a variação e a média estão relacionadas. Na regressão logística e de poisson, mas não na regressão com erros gaussianos, conhecemos a variação esperada e não precisamos calculá-la separadamente. O parâmetro de dispersão indica se temos mais ou menos do que a variação esperada. Se isso significa que observamos a quantidade esperada de variação, enquanto significa que temos menos do que a variação esperada (chamada sub-dispersão) eE ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pY∼Bin(n,p)E(Y)=npVar(Y)=np(1−p)ϕϕ=1ϕ<1ϕ>1significa que temos uma variação extra além do esperado (chamado superdispersão). O parâmetro de dispersão na regressão logística e de poisson é fixado em 1, o que significa que podemos usar o escore . O parâmetro de dispersão. Em outros tipos de regressão, como a regressão linear normal, temos que estimar a variação residual e, portanto, um valor é usado para calcular os valores . Em , veja estes dois exemplos:ztpR
Regressão logística
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Observe que o parâmetro de dispersão é fixo em 1 e, portanto, obtemos valores .z
Regressão linear normal (OLS)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Aqui, temos que estimar a variância residual (denotada como "Erro padrão residual") e, portanto, usamos valores- vez de valores- . Obviamente, em amostras grandes, a distribuição aproxima a distribuição normal e a diferença não importa.z ttzt
Outro post relacionado pode ser encontrado aqui .