Vou adotar uma abordagem diferente para desenvolver a intuição subjacente à fórmula . Ao desenvolver intuição para o modelo de regressão múltipla, é útil considerar o modelo de regressão linear bivariada, viz. , é freqüentemente chamado de contribuição determinística para e é chamado de contribuição estocástica. Expressado em termos de desvios das médias da amostra , esse modelo também pode ser escrito comoyi=α+βxi+εi,Varβ^= σ2( X′X)- 1α + β x i y i ε i
yEu= α + βxEu+ εEu,i = 1 , … , n .
α + βxEuyEuεEu( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε i - ˉ( x¯, y¯)( yEu- y¯) = β( xEu- x¯) + ( εEu- ε¯) ,i = 1 , … , n .
Para ajudar a desenvolver a intuição, assumiremos que as suposições mais simples de Gauss-Markov são satisfeitas: estocástico, para todos , e para todos os . Como você já sabe muito bem, essas condições garantem que onde é a variação da amostra de . Em palavras, esta fórmula faz três reivindicações: "A variação de é inversamente proporcional ao tamanho da amostra , é diretamente proporcional à variação dexEun ε i ∼ iid ( 0 , σ 2 ) i = 1 , … , n∑ni = 1( xEu- x¯)2> 0nεEu~ Iid ( 0 , σ2)i = 1 , … , nVar
Varβ^= 1nσ2( Varx )- 1,
x β n ε xVarxxβ^nε e é inversamente proporcional à variação de ".
x
Por que dobrar o tamanho da amostra, ceteris paribus , faz com que a variação de seja reduzida pela metade? Esse resultado está intimamente ligado à suposição iid aplicada a : Como se supõe que os erros individuais sejam iid, cada observação deve ser tratada ex ante como sendo igualmente informativa. E, dobrar o número de observações duplica a quantidade de informações sobre os parâmetros que descrevem a relação (assumida linear) entre e £xyσ2 ββ^εxy. Ter o dobro de informações reduz pela metade a incerteza sobre os parâmetros. Da mesma forma, deve ser fácil desenvolver a intuição de alguém por que dobrar também dobra a variação de .σ2β^
Passemos, então, à sua pergunta principal, que consiste em desenvolver intuição para a alegação de que a variação de é inversamente proporcional à variação de . Para formalizar noções, consideremos dois modelos de regressão linear bivariada separados, denominados Modelo e Modelo partir de agora. Assumiremos que ambos os modelos satisfazem as suposições da forma mais simples do teorema de Gauss-Markov e que os modelos compartilham exatamente os mesmos valores de , , e . Sob essas premissas, é fácil mostrar que x(1)(2)ctβnσ2β^x( 1 )( 2 )αβnσ2 ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ xEβ^( 1 )= Eβ^(2 )= β ; em palavras, ambos os estimadores são imparciais. Fundamentalmente, também assumiremos que , . Sem perda de generalidade, vamos assumir que . Qual estimador de terá a menor variação? Em outras palavras, ou estarão mais perto, em média , de ? Na discussão anterior, temosx¯( 1 )= x¯( 2 )= x¯Varx( 1 )≠ Varx( 2 )βVarx( 1 )> Varx( 2 )β^β^( 1 ) ββ^( 2 )βk=1,2Varβ^( K )= 1nσ2/ Varx( K ))para . Como por suposição, segue-se que . Qual é, então, a intuição por trás desse resultado?k = 1 , 2Varx( 1 )> Varx( 2 )Varβ^( 1 )< Varβ^( 2 )
Como, por suposição, , em média, cada estará mais longe de que é o caso, em média, para . Vamos denotar a diferença absoluta média esperada entre e por . A suposição de que implica que . O modelo de regressão linear bivariada, expresso em desvios das médias, afirma que para o Modelo e para o Modelo x ( 1 ) i ˉ xVarx( 1 )> Varx( 2 )x( 1 )Eux¯x( 2 )EuxEux¯dxVarx( 1 )> Varx( 2 )d( 1 )x> d( 2 )xdy= βd( 1 )x( 1 )dy= βd( 2 )x( 2 ) . Se , isso significa que o componente determinístico do Modelo , , tem uma influência maior em do que o componente determinístico do Modelo , . Lembre-se de que os dois modelos supostamente satisfazem as suposições de Gauss-Markov, que as variações de erro são as mesmas nos dois modelos e que . Como o Modelo fornece mais informações sobre a contribuição do componente determinístico de do que o Modelo , segue-se que a precisãoβ≠ 0( 1 )βd( 1 )xdy( 2 )βd( 2 )xβ( 1 )= β( 2 )= β( 1 )y( 1 ) ( 2 ) β( 2 )com as quais a contribuição determinística pode ser estimada é maior para o Modelo que é o caso para o Modelo . O inverso de maior precisão é uma variação menor da estimativa pontual de .( 1 )( 2 )β
É razoavelmente simples generalizar a intuição obtida do estudo do modelo de regressão simples para o modelo geral de regressão linear múltipla. A principal complicação é que, em vez de comparar as variações escalares, é necessário comparar o "tamanho" das matrizes de variância-covariância. Ter um bom conhecimento prático de determinantes, traços e autovalores de matrizes simétricas reais é muito útil neste ponto :-)