Utilidade do teorema de Frisch-Waugh

Devo ensinar o teorema de Frish Waugh em econometria, que não estudei.

Entendi a matemática por trás disso e espero que a idéia também "o coeficiente obtido para um determinado coeficiente de um modelo linear múltiplo seja igual ao coeficiente do modelo de regressão simples se você" eliminar "a influência dos outros regressores". Então a ideia teórica é bem legal. (Se eu totalmente entendi mal, recebo uma correção)

Mas tem alguns usos clássicos / práticos?

EDIT : Aceitei uma resposta, mas ainda estou disposto a ter novas que tragam outros exemplos / aplicações.

— Anthony Martin
fonte

Um óbvio seria adicionar gráficos variáveis ?

— Silverfish

A Introdução à Econometria de Dougherty menciona outro exemplo de uso do teorema de Frisch-Waugh-Lovell. Nos primeiros dias da análise econométrica de séries temporais, era bastante comum nos modelos em que as variáveis tinham tendências temporais determinísticas para prejudicar todas elas antes de regredir. Mas, por FWL, você obtém os mesmos coeficientes simplesmente incluindo uma tendência de tempo como um regressor e, além disso, gera erros padrão "corretos", pois reconhece que 1 df foi consumido.

— Silverfish

Dougherty adverte contra o procedimento, portanto, nesse aspecto, não é um ótimo exemplo, mesmo que seja instrutivo. As variáveis econômicas costumam parecer estacionárias com diferença em vez de estacionárias com tendência, portanto esse tipo de tentativa de prejudicar não funciona e pode resultar em regressões espúrias.

— Silverfish

@Silverfish: FWL é uma técnica puramente algébrica, então a questão de se extrair uma tendência determinística é "correta", dado que o DGP subjacente é sem dúvida importante, mas não tem relação com o FWL, portanto, nesse sentido, seu exemplo é perfeitamente válido para Os OP questionam sobre as duas maneiras de obter estimativas pontuais.

— Christoph Hanck 16/03

Eu explorei esse relacionamento em muitos posts, principalmente para fins conceituais e para fornecer exemplos interessantes de fenômenos de regressão. Consulte, entre outros , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 e stats.stackexchange.com/a/71257 .

— whuber

Respostas:

Considere o modelo de dados do painel de efeitos fixos, também conhecido como modelo LSDV (Least Squares Dummy Variables).

pode ser calculada aplicando OLS diretamente ao modelo onde é umamatriz de manequins e $b_{LSDV}$

y = X β + D α + ϵ,

$y=X\beta+D\alpha+\epsilon,$

D

$D$

N T \times N

$NT\times N$

α

$\alpha$ representa os efeitos fixos específicos do indivíduo.

Outra maneira de calcular é aplicar a chamada transformação dentro do modelo usual, a fim de obter uma versão menosprezada, ou seja, Aqui, , a matriz fabricante residual de uma regressão em $b_{LSDV}$

M_{[D]} y = M_{[D]} X β + M_{[D]} ϵ .

$M_{[D]}y=M_{[D]}X\beta+M_{[D]}\epsilon.$

M_{[D]} = I - D (D^{'} D)^{- 1} D^{'}

$M_{[D]}=I-D(D'D)^{-1}D'$

D

$D$

Pelo teorema Frisch-Waugh-Lovell, os dois são equivalentes, como FWL diz que você pode calcular um subconjunto de coeficientes de regressão de uma regressão ) por $\hat\beta$

regredindo nos outros regressores (aqui, ), salvando os resíduos (aqui, o tempo diminuído $y$ $D$ $y$ ou , porque a regressão em uma constante apenas diminui as variáveis); $M_{[D]}y$
regredindo o em $X$ $D$ e salvando os resíduos , e $M_{[D]}X$
regredir os resíduos para o outro, em . $M_{[D]}y$ $M_{[D]}X$

A segunda versão é muito mais amplamente usada, porque os conjuntos de dados de painel típicos podem ter milhares de unidades de painel , de modo que a primeira abordagem exigiria a execução de uma regressão com milhares de regressores, o que não é uma boa ideia numericamente até hoje em dia com rapidez. computadores, como calcular o inverso de seria muito caro, considerando que rebaixando-tempo e é de pouco custo. $N$ $(D :X)'(D: X)$ $y$ $X$

— Christoph Hanck
fonte

Muito obrigado, este é o tipo de resposta que eu estava procurando, mesmo que seja um pouco avançado para realmente usá-lo. Portanto, sua resposta está bem comigo, mas eu ficaria feliz se eu tiver outras, devo aceitar a sua?

— Anthony Martin

Se ajudou, seria apropriado fazê-lo. Mas aceitar reduzirá suas chances de obter melhores respostas; portanto, você deve esperar antes de aceitar esta. Uma recompensa aumentaria ainda mais suas chances de obter mais respostas - já que não há usuários suficientes no CV que respondam regularmente às perguntas, dada a quantidade de perguntas, mesmo uma única resposta pode levar outros usuários ativos a concluir que as perguntas foram tratadas. (Eu

— postei

Aqui está uma versão simplificada da minha primeira resposta, que acredito ser menos relevante na prática, mas possivelmente mais fácil de "vender" para uso em sala de aula.

As regressões e produzem idêntico , . Isso pode ser visto da seguinte forma: take

y_{i} = β_{1} + \sum_{j = 2}^{K} β_{j} x_{i j} + ϵ_{i}

$y_i = \beta_1 + \sum_{j=2}^K\beta_jx_{ij} + \epsilon_i$

y_{i} - \bar{y} = \sum_{j = 2}^{K} β_{j} (x_{i j} - {\bar{x}}_{j}) + {\tilde{ϵ}}_{i}

$y_i-\bar{y} = \sum^K_{j=2}\beta_j(x_{ij} - \bar{x}_j) + \tilde{\epsilon}_i$

{\hat{β}}_{j}

$\widehat{\beta}_j$

j = 2, \dots, K

$j=2,\ldots,K$

x_{1} = 1 := (1, \dots, 1)^{'}

$\mathbf{x}_1=\mathbf{1}:=(1,\ldots,1)'$

M_{1} = I - 1 (1^{'} 1)^{- 1} 1^{'} = I - \frac{1 1^{'}}{n},

$M_\mathbf{1}=I-\mathbf{1}(\mathbf{1}'\mathbf{1})^{-1}\mathbf{1}'=I-\frac{\mathbf{1}\mathbf{1}'}{n},$

M_{1} x_{j} = x_{j} - 1 n^{- 1} 1^{'} x_{j} = x_{j} - 1 {\bar{x}}_{j} =: x_{j} - {\bar{x}}_{j} .

$M_{\mathbf{1}}\mathbf{x}_j=\mathbf{x}_j-\mathbf{1} n^{-1}\mathbf{1}'\mathbf{x}_j=\mathbf{x}_j-\mathbf{1}\bar{x}_j=:\mathbf{x}_j-\bar{\mathbf{x}}_j.$

M_{1} x_{j}

$M_{\mathbf{1}}\mathbf{x}_j$ , são apenas as variáveis modificadas (a mesma lógica, é claro, se aplica a

y_{i}

$y_i$ )

— Christoph Hanck
fonte

Here is another, more indirect, but I believe interesting one, namely the connection between different approaches to computing the partial autocorrelation coefficient of a stationary time series.

Definition 1

Consider the projection

{\hat{Y}}_{t} - μ = α_{1}^{(m)} (Y_{t - 1} - μ) + α_{2}^{(m)} (Y_{t - 2} - μ) + \dots + α_{m}^{(m)} (Y_{t - m} - μ)

$\begin{equation} \hat{Y}_{t}-\mu=\alpha^{(m)}_1(Y_{t-1}-\mu)+\alpha^{(m)}_2(Y_{t-2}-\mu)+\ldots+\alpha^{(m)}_m(Y_{t-m}-\mu) \end{equation}$ The

m

$m$ th partial autocorrelation equals

α_{m}^{(m)}

$\alpha^{(m)}_m$ .

It thus gives the influence of the $m$ th lag on $Y_t$ \emph{after controlling for} $Y_{t-1},\ldots,Y_{t-m+1}$ . Contrast this with $\rho_m$ , that gives the `raw' correlation of $Y_t$ and $Y_{t-m}$ .

How do we find the $\alpha^{(m)}_j$ ? Recall that a fundamental property of a regression of $Z_t$ on regressors $X_t$ is that the coefficients are such that regressors and residuals are uncorrelated. In a population regression this condition is then stated in terms of population correlations. Then:

E [X_{t} (Z_{t} - X_{t}^{⊤} α^{(m)})] = 0

$\begin{equation} E[X_t(Z_t-X_t^\top\mathbf{\alpha}^{(m)})]=0 \end{equation}$ Solving for

α^{(m)}

$\mathbf{\alpha}^{(m)}$ we find the linear projection coefficients

α^{(m)} = [E (X_{t} X_{t}^{⊤})]^{- 1} E [X_{t} Z_{t}]

$\begin{equation} \mathbf{\alpha}^{(m)}=[E(X_tX_t^\top)]^{-1}E[X_tZ_t] \end{equation}$ Applying this formula to

Z_{t} = Y_{t} - μ

$Z_t=Y_t-\mu$ and

X_{t} = [(Y_{t - 1} - μ), (Y_{t - 2} - μ), \dots, (Y_{t - m} - μ)]^{⊤}

$X_t=[(Y_{t-1}-\mu),(Y_{t-2}-\mu),\ldots,(Y_{t-m}-\mu)]^\top$ we have

E (X_{t} X_{t}^{⊤}) = (\begin{array}{cccc} γ_{0} & γ_{1} & \dots & γ_{m - 1} \\ γ_{1} & γ_{0} & \dots & γ_{m - 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ γ_{m - 1} & γ_{m - 2} & \dots & γ_{0} \end{array})

$E(X_tX_t^\top)=\left(\begin{array}{cccc} \gamma_{0} & \gamma_{1}&\cdots& \gamma_{m-1}\\ \gamma_{1}& \gamma_{0} & \cdots &\gamma_{m-2}\\ \vdots & \vdots & \ddots &\vdots\\ \gamma_{m-1}&\gamma_{m-2} & \cdots & \gamma_{0}\\ \end{array} \right)$ Also,

E (X_{t} Z_{t}) = (\begin{matrix} γ_{1} \\ ⋮ \\ γ_{m} \end{matrix})

$E(X_tZ_t)=\left( \begin{array}{c} \gamma_1 \\ \vdots \\ \gamma_m \\ \end{array} \right)$ Hence,

α^{(m)} = {(\begin{array}{cccc} γ_{0} & γ_{1} & \dots & γ_{m - 1} \\ γ_{1} & γ_{0} & \dots & γ_{m - 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ γ_{m - 1} & γ_{m - 2} & \dots & γ_{0} \end{array})}^{- 1} (\begin{matrix} γ_{1} \\ ⋮ \\ γ_{m} \end{matrix})

$\begin{equation} \mathbf{\alpha}^{(m)}=\left(\begin{array}{cccc} \gamma_{0} & \gamma_{1}&\cdots& \gamma_{m-1}\\ \gamma_{1}& \gamma_{0} & \cdots &\gamma_{m-2}\\ \vdots & \vdots & \ddots &\vdots\\ \gamma_{m-1}&\gamma_{m-2} & \cdots & \gamma_{0}\\ \end{array} \right)^{-1}\left( \begin{array}{c} \gamma_1 \\ \vdots \\ \gamma_m \\ \end{array} \right)\end{equation}$ The

m

$m$ th partial correlation then is the last element of the vector

α^{(m)}

$\mathbf{\alpha}^{(m)}$ .

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The $m$ th partial correlation is the correlation of the prediction error of $Y_{t+m}$ predicted with $Y_{t-1},\ldots,Y_{t-m+1}$ with the prediction error of $Y_{t}$ predicted with $Y_{t-1},\ldots,Y_{t-m+1}$ .

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

— Christoph Hanck
fonte