Necessidade de centralizar e padronizar dados em regressão

Considere regressão linear com alguma regularização: por exemplo, encontre que minimize $x$ $||Ax - b||^2+\lambda||x||_1$

Normalmente, as colunas de A são padronizadas para ter média zero e norma de unidade, enquanto é centralizado para ter média zero. Quero garantir que meu entendimento do motivo da padronização e centralização esteja correto. $b$

Fazendo com que as médias das colunas e zero, não precisamos mais de um termo de interceptação. Caso contrário, o objetivo teria sido . Ao tornar as normas das colunas de A iguais a 1, removemos a possibilidade de um caso em que, apenas porque uma coluna de A tem uma norma muito alta, ela obtém um baixo coeficiente em , o que pode nos levar a concluir incorretamente que essa coluna de A não "explica" bem. $A$ $b$ $||Ax-x_01-b||^2+\lambda||x||_1$ $x$ $x$

Esse raciocínio não é exatamente rigoroso, mas intuitivamente, é o caminho certo para pensar?

— rk2
fonte

Você está correto em zerar as médias das colunas de e $A$ $b$ .

No entanto, quanto ao ajuste das normas das colunas de , considere o que aconteceria se você começasse com um normalizado , e todos os elementos de tivessem aproximadamente a mesma magnitude. Vamos multiplicar uma coluna por, digamos, . O elemento correspondente de seria, em uma regressão não regulamentada, aumentado por um fator de . Veja o que aconteceria com o termo de regularização? A regularização se aplicaria, para todos os efeitos práticos, apenas a esse coeficiente. $A$ $A$ $x$ $10^{-6}$ $x$ $10^6$

Ao normatizar as colunas de , nós, escrevendo intuitivamente, colocamos todas na mesma escala. Consequentemente, as diferenças nas magnitudes dos elementos de estão diretamente relacionadas à "oscilação" da função explicativa ( ), que é, em termos gerais, o que a regularização tenta controlar. Sem ele, um valor de coeficiente de, por exemplo, 0,1 vs. outro de 10,0 diria, na ausência de conhecimento sobre , nada sobre qual coeficiente estava contribuindo mais para a "oscilação" de . (Para uma função linear, como , "wiggliness" está relacionado ao desvio de 0.) $A$ $x$ $Ax$ $A$ $Ax$ $Ax$

$A$ $x$ $A$ $x$ $A$ $x$

— jbowman
fonte

$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at all

A

$A$

x

$x$ is the model in this case.

— user3813057

@user3813057 - this was a question about regularization, and has nothing to do with explanatory power.

x

$x$ would more usually be labeled

β

$\beta$ ,

A

$A$ would more usually be labeled

X

$X$ , and

b

$b$ would be more usually labeled

y

$y$ .

x

$x$ is not there to explain

A

$A$ at all.

— jbowman