Considere regressão linear com alguma regularização: por exemplo, encontre que minimize | | A x - b | | 2 + λ | | x |
Normalmente, as colunas de A são padronizadas para ter média zero e norma de unidade, enquanto é centralizado para ter média zero. Quero garantir que meu entendimento do motivo da padronização e centralização esteja correto.
Fazendo com que as médias das colunas e b sejam zero, não precisamos mais de um termo de interceptação. Caso contrário, o objetivo teria sido | | A x - x 0 1 - b | | 2 + λ | | x | | 1 . Ao tornar as normas das colunas de A iguais a 1, removemos a possibilidade de um caso em que, apenas porque uma coluna de A tem uma norma muito alta, ela obtém um baixo coeficiente em x , o que pode nos levar a concluir incorretamente que essa coluna de A não "explica" x bem.
Esse raciocínio não é exatamente rigoroso, mas intuitivamente, é o caminho certo para pensar?
$x$ does not ''explain'' $A$ well
x does not ''explain'' $A$ at all