Prova de que a estatística F segue a distribuição F


20

À luz desta pergunta: Prova de que os coeficientes em um modelo OLS seguem uma distribuição t com (nk) graus de liberdade

Eu adoraria entender por que

F=(TSSRSS)/(p1)RSS/(np),

onde é o número de parâmetros de modelo e o número de observações e da variância total, a variância residual, segue um distribuição.pnTSSRSSFp1,np

Devo admitir que nem tentei provar isso, pois não sabia por onde começar.


Christoph Hanck e Francis já deram uma resposta muito boa. Se você ainda tiver dificuldades em entender a prova do teste f para regressão linear, tente fazer check-out em teamdable.github.io/techblog/… . Eu escrevi o post do blog sobre a prova do menor para regressão linear. Está escrito em coreano, mas pode não ser um problema, porque quase tudo é fórmula matemática. Espero que ajude se você ainda tiver dificuldades em entender a prova do teste f para regressão linear.
Taeho Oh

Embora esse link possa responder à pergunta, é melhor incluir aqui as partes essenciais da resposta e fornecer o link para referência. As respostas somente para links podem se tornar inválidas se a página vinculada for alterada. - Da avaliação
mkt - Reinstate Monica

Respostas:


19

Vamos mostrar o resultado para o caso geral em que sua fórmula para a estatística de teste é um caso especial. Em geral, precisamos verificar se a estatística pode ser, de acordo com a caracterização da distribuiçãoF , ser escrita como a razão de independentes, divididos por seus graus de liberdade.χ2

Deixe com e conhecidos, não aleatórios e tenha a classificação completa da coluna . Isso representa restrições lineares para (ao contrário da notação OP) regressores, incluindo o termo constante. Portanto, no exemplo de @ user1627466, corresponde às restrições de definir todos os coeficientes de inclinação para zero.H0:Rβ=rRrR:k×qqqkp1q=k1

Em vista de , temos para que (com sendo uma "raiz quadrada da matriz" de , via, por exemplo, um Decomposição de Cholesky) como Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
que a segunda linha usa a variação do OLSE.

Isso, como mostrado na resposta à qual você vincula (veja também aqui ), é independente de onde é a estimativa de variação de erro imparcial usual, com é a "matriz fabricante residual" de regressão em .

d:=(nk)σ^2σ2χnk2,
σ^2=yMXy/(nk)MX=IX(XX)1XX

Portanto, como é uma forma quadrática em normais, Em particular, em , isso se reduz à estatística nn

nnχq2/qd/(nk)=(β^olsβ)R{R(XX)1R}1R(β^olsβ)/qσ^2Fq,nk.
H0:Rβ=r
F=(Rβ^olsr){R(XX)1R}1(Rβ^olsr)/qσ^2Fq,nk.

Para ilustração, considere o caso especial , , , e . Então, a distância euclidiana quadrada do OLS estimar a partir da origem padronizada pelo número de elementos - destacando que, como são normais padrão ao quadrado e, portanto, , a distribuição pode ser vista como uma distribuição "média .R=Ir=0q=2σ^2=1XX=I

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
β^ols,22χ12Fχ2

Caso você prefira uma pequena simulação (que obviamente não é uma prova!), Na qual o nulo é testado e que nenhum dos regressores é importante - o que realmente não importa, para simularmos a distribuição nula.k

insira a descrição da imagem aqui

Vemos uma concordância muito boa entre a densidade teórica e o histograma das estatísticas dos testes de Monte Carlo.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Para ver que as versões das estatísticas de teste na pergunta ea resposta são realmente equivalente, nota que os corresponde nulos às restrições e .R=[0I]r=0

Seja particionado de acordo com o qual os coeficientes são restritos a zero sob o nulo (no seu caso, todos, exceto a constante, mas a derivação a seguir é geral). Além disso, deixe é a estimativa OLS adequadamente particionada.X=[X1X2]β^ols=(β^ols,1,β^ols,2)

Então, e o bloco inferior direito de Agora, use os resultados para inversos particionados para obter que .

Rβ^ols=β^ols,2
R(XX)1RD~,
(XTX)1=(X1X1X1X2X2X1X2X2)1(A~B~C~D~)
D~=(X2X2X2X1(X1X1)1X1X2)1=(X2MX1X2)1
MX1=IX1(X1X1)1X1

Assim, o numerador da estatística se torna (sem a divisão por ) Em seguida, lembre-se de que pelo teorema de Frisch-Waugh-Lovell podemos escrever para que Fq

Fnum=β^ols,2(X2MX1X2)β^ols,2
β^ols,2=(X2MX1X2)1X2MX1y
Fnum=yMX1X2(X2MX1X2)1(X2MX1X2)(X2MX1X2)1X2MX1y=yMX1X2(X2MX1X2)1X2MX1y

Resta mostrar que esse numerador é idêntico a , a diferença na soma irrestrita e restrita dos resíduos quadrados.USSRRSSR

Aqui, é a soma residual dos quadrados da regressão de em , ou seja, com imposto. No seu caso especial, isso é apenas , os resíduos de uma regressão em uma constante.

RSSR=yMX1y
yX1H0TSS=i(yiy¯)2

Novamente, usando FWL (que também mostra que os resíduos das duas abordagens são idênticos), podemos escrever (SSR em sua notação) como SSR da regressão USSR

MX1yonMX1X2

Ou seja,

USSR=yMX1MMX1X2MX1y=yMX1(IPMX1X2)MX1y=yMX1yyMX1MX1X2((MX1X2)MX1X2)1(MX1X2)MX1y=yMX1yyMX1X2(X2MX1X2)1X2MX1y

Portanto,

RSSRUSSR=yMX1y(yMX1yyMX1X2(X2MX1X2)1X2MX1y)=yMX1X2(X2MX1X2)1X2MX1y


Obrigado. Não sei se é considerado segurar a mão neste momento, mas como você passa da soma dos betas ao quadrado para uma expressão que contém soma dos quadrados?
precisa saber é o seguinte

1
@ user1627466, adicionei uma derivação da equivalência das duas fórmulas.
Christoph Hanck

4

O @ChristophHanck forneceu uma resposta muito abrangente, aqui vou adicionar um esboço de prova no caso especial do OP mencionado. Espero que também seja mais fácil seguir para iniciantes.

Uma variável aleatória se que e são independentes. Assim, para mostrar que o -statistic tem -Distribuição, nós podemos também mostrar que e para algumas constantes , e que elas são independentes.YFd1,d2

Y=X1/d1X2/d2,
X1χd12X2χd22FFcESSχp12cRSSχnp2c

No modelo OLS, escrevemos onde é uma matriz , e idealmente . Por conveniência, apresentamos a matriz de chapéu (note ), e o fabricante residual . As propriedades importantes de e são que são simétricas e idempotentes. Além disso, temos e , estes virá a calhar mais tarde.

y=Xβ+ε,
Xn×pεNn(0,σ2I)H=X(XTX)1XTy^=HyM=IHHMtr(H)=pHX=X

Vamos denotar a matriz de todos como , a soma dos quadrados pode ser expressa com formas quadráticas:Note-se que . Pode-se verificar que é idempotente e . Resulta deste , em seguida, que também é idempotente e .J

TSS=yT(I1nJ)y,RSS=yTMy,ESS=yT(H1nJ)y.
M+(HJ/n)+J/n=IJ/nrank(M)+rank(HJ/n)+rank(J/n)=nHJ/nM(HJ/n)=0

Podemos agora estabelecido para mostrar que -statistic tem -Distribuição (procurar o teorema de Cochran para mais). Aqui precisamos de dois fatos:FF

  1. Seja . Suponha é simétrica com classificação e é idempotente, então , isto é, não central com gl e não central . Este é um caso especial do resultado de Baldessari , uma prova também pode ser encontrada aqui .xNn(μ,Σ)ArAΣxTAxχr2(μTAμ/2)χ2rμTAμ/2
  2. Seja . Se , então e são independentes. Isso é conhecido como teorema de Craig .xNn(μ,Σ)AΣB=0xTAxxTBx

Como , temosNo entanto, sob hipótese nula , realmente . Por outro lado, nota que desde . Portanto, . Como , e também são independentes. Segue imediatamente entãoyNn(Xβ,σ2I)

ESSσ2=(yσ)T(H1nJ)yσχp12((Xβ)T(HJn)Xβ).
β=0ESS/σ2χp12yTMy=εTMεHX=XRSS/σ2χnp2M(HJ/n)=0ESS/σ2RSS/σ2
F=(TSSRSS)/(p1)RSS/(np)=ESSσ2/(p1)RSSσ2/(np)Fp1,np.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.