A configuração é expressa convencionalmente na forma
y=Xβ+ε
para um vetor de respostas , uma matriz modelo e um vetor de parâmetros , sob as premissas de que os erros aleatórios não estão correlacionados com variâncias iguais e zero significa: isto é,nyn×kXkβε=(εi)σ2
E(ε)=0; Var(ε)=σ2In.
Nesse caso, a estimativa dos mínimos quadrados ordinários é
β^=(X′X)−X′y.
Seja uma matriz cujas linhas e fornecem os valores dos regressores para Rachel e Thomas, respectivamente. As respostas previstas estão no vetor . As respostas reais são e onde esses novos epsilons são variáveis aleatórias não correlacionadas com média zero, independentes do original e com variações comuns .Z2×kzRzT2Zβ^zRβ+εRzTβ+εTϵσ2
A diferença entre esses valores para Rachel menos Thomas, que chamarei de , é simplesmenteδ
δ=(zRβ+εR)−(zTβ+εT)=(1,−1)Zβ+εR−εT.
Ambos os lados são matrizes - isto é, números - e, evidentemente, são aleatórios em virtude da aparência de no lado direito. (O lado direito é a diferença estimada entre as respostas de Rachel e Thomas, mais o desvio entre as respostas reais e previstas de Rachel, menos o desvio entre as respostas reais e previstas de Thomas.) Podemos calcular seu termo de expectativa por termo:1×1yεRεT
E(δ)=E((1,−1)Zβ+εR−εT)=(1,−1)Zβ+0−0=z1β−z2β.
Isso é exatamente o que se poderia supor: a diferença esperada é a diferença nos valores previstos. Pode ser estimado substituindo os parâmetros por suas estimativas. Para indicar isso, vamos colocar um chapéu sobre o " ":E
E^(δ)=(1,−1)Zβ^=z1β^−z2β^.(1)
Esse é o aparece na pergunta.2.88−2.51
Podemos continuar a análise da diferença entre Rachel e Thomas, expressando os dois componentes da incerteza sobre essa distribuição: um é porque e são estimados a partir de dados aleatórios e o outro é a aparência desses desvios aleatórios e . βσεRεT
Var(Rachel−Thomas)=Var((1,−1)Zβ^+εR−εT)=(1,−1)ZVar(β^)Z′(1,−1)′+Var(εR)+Var(εT)=(1,−1)ZVar(β^)Z′(1,−1)′+2σ^2.(2)
As variações dos epsilons são estimadas por . Não conhecemos porque depende de . É rotineiro estimar essa variação substituindo por sua estimativa de mínimos quadrados , produzindo uma quantidade às vezes escrita .σ^2Var(β^)σσ2σ^2Varˆ(β^)
Estas estimativas podem ser convertidos em probabilidades apenas por fazer suposições mais específicos sobre as distribuições condicionais de sobre . yX De longe, o mais simples é assumir que é Normal multivariada, pois então (sendo uma transformação linear do vetor ) em si é Normal e, portanto, sua média e variância determinam completamente sua distribuição. Sua distribuição estimada é obtida colocando os chapéus em e .yδyEVar
Finalmente, reunimos todas as informações necessárias para uma solução. O procedimento OLS estima que a distribuição da resposta de Rachel menos a resposta de Thomas seja Normal com uma média igual à diferença nos valores previstos e com uma variação estimada por , que envolve a variação de erro estimada e a matriz de variância-covariância das estimativas do coeficiente, .(1)(2)σ^2Var(β^)
Este R
código realiza diretamente os cálculos exibidos nas fórmulas e :(1)(2)
fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df) # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))
cont <- matrix(c(1,-1), 1, 2) # Rachel - Thomas "contrast".
beta.hat <- coef(fit) # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat # Predicted mean difference
sigma.hat <- sigma(fit) # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas
A saída para esses dados é : a OLS estima que há uma probabilidade de que o CGPA de Rachel exceda o de Thomas. (Neste caso, porque Rachel e Thomas são muito parecidos, o modelo se encaixa muito bem e a quantidade de dados é tão grande que é minúsculo em comparação para e, portanto, pode ser negligenciado. Isso nem sempre será o caso.)0.6767%Varˆ(δ^)2σ^2
Este é o mecanismo subjacente ao cálculo dos intervalos de previsão : podemos calcular intervalos de previsão para a diferença entre o CGPA de Rachel e Thomas usando essa distribuição.