Convertendo betas padronizados de volta para variáveis originais

Sei que essa é provavelmente uma pergunta muito simples, mas depois de pesquisar não consigo encontrar a resposta que estou procurando.

Eu tenho um problema em que preciso padronizar as variáveis para executar a (regressão de crista) para calcular as estimativas de crista dos betas.

Preciso convertê-las novamente para a escala de variáveis originais.

Mas como eu faço isso?

Encontrei uma fórmula para o caso bivariado que

β^{*} = \hat{β} \frac{S_{x}}{S_{y}} .

$\beta^* = \hat\beta \frac{S_x}{S_y} \>.$

Isto foi dado em D. Gujarati, Econometria Básica , página 175, fórmula (6.3.8).

Onde são os estimadores da regressão executada nas variáveis padronizadas e é o mesmo estimador convertido de volta à escala original, é o desvio padrão da amostra do regressando e é o desvio padrão da amostra. $\beta^*$ $\hat\beta$ $S_y$ $S_x$

Infelizmente, o livro não cobre o resultado análogo para regressão múltipla.

Também não tenho certeza se entendi o caso bivariado? A manipulação algébrica simples fornece a fórmula para na escala original: $\hat\beta$

\hat{β} = β^{*} \frac{S_{y}}{S_{x}}

$\hat\beta=\beta^* \frac{S_y}{S_x}$

Parece estranho para mim que o que foi calculado em variáveis que já são desinfladas por , ser desinflado por novamente para ser convertido novamente? (Além disso, por que os valores médios não são adicionados novamente?) $\hat\beta$ $S_x$ $S_x$

Então, alguém pode explicar como fazer isso para um caso multivariado idealmente com uma derivação para que eu possa entender o resultado?

— Baz
fonte

Para o modelo de regressão usando as variáveis padronizadas, assumimos o seguinte formulário para a linha de regressão

E [Y] = β_{0} + \sum_{j = 1}^{k} β_{j} z_{j},

$\mathbb E[Y] =\beta_{0}+\sum_{j=1}^{k}\beta_{j}z_{j},$

onde é o j-ésimo regressor (padronizado), gerado a partir de subtraindo a média da amostra e dividindo pelo desvio padrão da amostra : $z_{j}$ $x_j$ $\bar x_j$ $S_j$

z_{j} = \frac{x_{j} - {\bar{x}}_{j}}{S_{j}}

$z_j = \frac{x_j - \bar{x}_j}{S_j}$

Realizando a regressão com os regressores padronizados, obtemos a linha de regressão ajustada:

\hat{Y} = {\hat{β}}_{0} + \sum_{j = 1}^{k} {\hat{β}}_{j} z_{j}

$\hat Y = \hat \beta_0 +\sum_{j=1}^{k} \hat \beta_{j}z_{j}$

Desejamos agora encontrar os coeficientes de regressão para os preditores não padronizados. Nós temos

\hat{Y} = {\hat{β}}_{0} + \sum_{j = 1}^{k} {\hat{β}}_{j} (\frac{x_{j} - {\bar{x}}_{j}}{S_{j}})

$\hat Y = \hat \beta_0 +\sum_{j=1}^{k} \hat \beta_{j}\left(\frac{x_j - \bar{x}_j}{S_j}\right)$

Reorganizando, essa expressão pode ser escrita como

\hat{Y} = ({\hat{β}}_{0} - \sum_{j = 1}^{k} {\hat{β}}_{j} \frac{{\bar{x}}_{j}}{S_{j}}) + \sum_{j = 1}^{k} (\frac{{\hat{β}}_{j}}{S_{j}}) x_{j}

$\hat Y = \left( \hat \beta_0 - \sum_{j=1}^k \hat \beta_j \frac{\bar x_j}{S_j} \right) + \sum_{j=1}^k \left(\frac{\hat \beta_j}{S_j}\right) x_j$

Como podemos ver, a interceptação para a regressão usando variáveis não transformadas é dada por . O coeficiente de regressão do ésimo preditor é . $\hat \beta_0 - \sum_{j=1}^k \hat \beta_j \frac{\bar x_j}{S_j}$ $j$ $\frac{\hat \beta_j}{S_j}$

No caso apresentado, presumi que apenas os preditores haviam sido padronizados. Se também padronizarmos a variável de resposta, a transformação dos coeficientes covariáveis de volta à escala original será feita usando a fórmula da referência que você forneceu. Nós temos:

\frac{E [Y] - \hat{y}}{S_{y}} = β_{0} + \sum_{j = 1}^{k} β_{j} z_{j}

$\frac{\mathbb E[Y] - \hat y}{S_y} =\beta_{0}+\sum_{j=1}^{k}\beta_{j}z_{j}$

Realizando a regressão, obtemos a equação de regressão ajustada

{\hat{Y}}_{s c a l e d} = \frac{{\hat{Y}}_{u n s c a l e d} - \bar{y}}{S_{y}} = {\hat{β}}_{0} + \sum_{j = 1}^{k} {\hat{β}}_{j} (\frac{x_{j} - {\bar{x}}_{j}}{S_{j}}),

$\hat Y_{scaled} = \frac{\hat Y_{unscaled} - \bar y}{S_y} = \hat \beta_0 +\sum_{j=1}^{k} \hat \beta_{j}\left(\frac{x_j - \bar{x}_j}{S_j}\right),$

onde os valores ajustados estão na escala da resposta padronizada. Para desescaloná-los e recuperar as estimativas de coeficiente para o modelo não transformado, multiplicamos a equação por e trazemos a média amostral de para o outro lado: $S_y$ $y$

{\hat{Y}}_{u n s c a l e d} = {\hat{β}}_{0} S_{y} + \bar{y} + \sum_{j = 1}^{k} {\hat{β}}_{j} (\frac{S_{y}}{S_{j}}) (x_{j} - {\bar{x}}_{j}) .

$\hat Y_{unscaled} = \hat \beta_0 S_y + \bar y +\sum_{j=1}^{k} \hat \beta_{j}\left(\frac{S_y}{S_j}\right) (x_j - \bar{x}_j).$

A interceptação correspondente ao modelo no qual nem a resposta nem os preditores foram padronizados é conseqüentemente dada por , enquanto os coeficientes covariáveis para o modelo de interesse podem ser obtidos multiplicando cada coeficiente por . $\hat \beta_0 S_y + \bar y - \sum_{j=1}^k \hat \beta_j \frac{S_y}{S_j}\bar x_j$ $S_y / S_j$

— Philipp Burckhardt
fonte

Convertendo betas padronizados de volta para variáveis ​​originais

Convertendo betas padronizados de volta para variáveis originais