Alguns dos meus preditores estão em escalas muito diferentes - preciso transformá-los antes de ajustar um modelo de regressão linear?

Eu gostaria de executar a regressão linear sobre um conjunto de dados multidimensional. Existem diferenças entre diferentes dimensões em termos de magnitude de ordem. Por exemplo, a dimensão 1 geralmente possui um intervalo de valores de [0, 1] e a dimensão 2 possui um intervalo de valores de [0, 1000].

Preciso fazer alguma transformação para garantir que os intervalos de dados para diferentes dimensões estejam na mesma escala? Se for necessário, há alguma orientação para esse tipo de transformação?

regression multiple-regression linear-model

— bit-question
fonte

As variáveis de deslocamento / dimensionamento não afetam sua correlação com a resposta

Para ver por que isso é verdade, suponha que a correlação entre e seja . Então a correlação entre e é $Y$ $X$ $\rho$ $Y$ $(X-a)/b$

\frac{c o v (Y, (X - uma) / b)}{S D ((X - uma) / b) \cdot S D (Y)} = \frac{c o v (Y, X / b)}{S D (X / b) \cdot S D (Y)} = \frac{\frac{1 1}{b} \cdot c o v (Y, X)}{\frac{1 1}{b} S D (X) \cdot S D (Y)} = ρ

$\frac{ {\rm cov}(Y,(X-a)/b) }{ {\rm SD}((X-a)/b) \cdot {\rm SD}(Y) } = \frac{ {\rm cov}(Y,X/b) }{ {\rm SD}(X/b) \cdot {\rm SD}(Y) } = \frac{ \frac{1}{b} \cdot {\rm cov}(Y,X) }{ \frac{1}{b}{\rm SD}(X) \cdot {\rm SD}(Y) } = \rho$

que decorre da definição de correlação e três fatos:

${\rm cov}(Y, X+a) = {\rm cov}(Y,X) + \underbrace{{\rm cov}(Y,a)}_{=0} = {\rm cov}(Y,X)$
${\rm cov}(Y,aX) = a {\rm cov}(Y,X)$
${\rm SD}(aX) = a \cdot {\rm SD}(X)$

Portanto, em termos de ajuste do modelo (por exemplo, ou os valores ajustados), deslocando ou escalar suas variáveis (por exemplo, colocá-los na mesma escala) não vai mudar o modelo $R^2$ , uma vez que coeficientes de regressão linear estão relacionados com as correlações entre variáveis. Isso mudará apenas a escala dos seus coeficientes de regressão , que devem ser lembrados quando você estiver interpretando a saída se optar por transformar seus preditores.

Edit: O acima assumiu que você está falando de regressão comum com a interceptação. Mais alguns pontos relacionados a isso (obrigado @cardinal):

A interceptação pode mudar quando você transforma suas variáveis e, como @cardinal aponta nos comentários, os coeficientes mudam quando você muda suas variáveis se você omitir a interceptação do modelo, embora eu assuma que você não fará isso a menos que tenha uma boa razão (veja, por exemplo, esta resposta ).
Se você estiver regularizando seus coeficientes de alguma forma (por exemplo, Lasso, regressão de crista), a centralização / redimensionamento afetará o ajuste. Por exemplo, se você estiver penalizando (a penalidade de regressão da crista), não poderá recuperar um ajuste equivalente após a padronização, a menos que todas as variáveis estivessem na mesma escala em primeiro lugar, ou seja, não há múltiplo constante que recuperar a mesma penalidade. $\sum \beta_{i}^{2}$

Sobre quando / por que um pesquisador pode querer transformar preditores

Uma circunstância comum (discutida na resposta subsequente de @Paul) é que os pesquisadores padronizarão seus preditores para que todos os coeficientes fiquem na mesma escala. Nesse caso, o tamanho das estimativas pontuais pode dar uma idéia aproximada de quais preditores têm o maior efeito depois que a magnitude numérica do preditor for padronizada.

Outro motivo pelo qual um pesquisador pode gostar de dimensionar variáveis muito grandes é o de que os coeficientes de regressão não estejam em uma escala extremamente pequena. Por exemplo, se você quiser examinar a influência do tamanho da população de um país na taxa de criminalidade (não poderia pensar em um exemplo melhor), convém medir o tamanho da população em milhões, e não em suas unidades originais, uma vez que o coeficiente pode ser algo como . $.00000001$

— Macro
fonte

Duas observações rápidas: embora o início da postagem esteja correto, ele perde o fato de que a centralização terá efeito se uma interceptação estiver ausente. :) Segundo, centralizar e redimensionar efeitos importantes se a regularização for usada. Embora o PO possa não estar considerando isso, ainda é provavelmente um ponto útil a ser lembrado.

— cardeal

X

$X$

\hat{y} = X (X^{'} X)^{- 1} X^{'} y

$\hat y = X (X'X)^{-1} X'y$

X

$X$

X D

$X D$

D

$D$

\tilde{y} = (X D) ((X D)^{'} X D)^{- 1 1} (X D)^{'} y = X D (D X^{'} X D)^{- 1 1} D X^{'} y = X (X^{'} X)^{- 1 1} X^{'} y = \hat{y} .

$\tilde y = (X D) ((XD)'XD)^{-1} (XD)'y = X D(D X'X D)^{-1} D X'y = X (X'X)^{-1} X'y = \hat y\>.$

@ cardinal, decidi mencionar o fato de que, se suas estimativas forem regularizadas, a centralização / dimensionamento poderá ter um impacto. Resisti no começo porque pensei que começaria uma longa digressão que pode confundir aqueles que não estão familiarizados com a regularização, mas achei que poderia lidar com isso com relativamente pouco espaço. Thanks--

— Macro

Nem todos os meus comentários têm necessariamente a intenção de sugerir que a resposta seja atualizada. Muitas vezes, eu apenas gosto de fazer observações auxiliares em boas respostas para refletir sobre idéias relacionadas que podem ser do interesse de um transeunte. (+1)

— cardeal

Algo descolado está acontecendo com a contagem dos votos. Mais uma vez, votei isso de maneira positiva ao fazer meu comentário anterior e ele não "levou". Hmm.

— cardeal

A chamada "normalização" é uma rotina comum para a maioria dos métodos de regressão. Existem duas maneiras:

Mapeie cada variável nos limites [-1, 1] (mapminmax no MatLab.
${\tilde{X}}_{Eu j} = \frac{X_{Eu j} - μ_{Eu}}{σ_{Eu}}$ $\tilde{X}_{ij}=\frac{X_{ij}-\mu_i}{\sigma_i}$ ${\tilde{X}}_{Eu j} = \frac{X_{Eu j} - \bar{X_{Eu}}}{s t d (X_{Eu})}$ $\tilde{X}_{ij}=\frac{X_{ij} - \overline{X_i}}{std({X_i})}$ $E[X_i] = \mu$ $E[X_i^2-E[X_i]^2]=\sigma^2$ $\overline{X_i}=\frac{1}{N}\sum_{j=1}^{N}X_{ij}$ $std({X_i}) = \sqrt{\frac{1}{N}\sum_{j=1}^{N}(X_{ij}^2 -\overline{X_{i}}^2)}$

Como a regressão linear é muito sensível aos intervalos de variáveis, eu geralmente sugeriria normalizar todas as variáveis se você não tiver conhecimento prévio sobre a dependência e esperar que todas as variáveis sejam relativamente importantes.

O mesmo vale para as variáveis de resposta, embora não seja muito importante para elas.

Por que fazer normalização ou padronização? Principalmente para determinar o impacto relativo de diferentes variáveis no modelo. Isso pode ser alcançado se todas as variáveis estiverem nas mesmas unidades.

Espero que isto ajude!

— Paulo
fonte

x1,x2,ysummary(lm(y~x1+x2))$r.sqsummary(lm(y~scale(x1)+scale(x2)))$r.sq

R^{2}

$R^2$

R^{2}

$\mathbf{R^2}$

p

$p$