A regressão de Ridge regulariza a regressão linear impondo uma penalidade no tamanho dos coeficientes. Assim, os coeficientes são reduzidos para zero e um para o outro. Mas quando isso acontece e se as variáveis independentes não tiverem a mesma escala, o encolhimento não é justo. Duas variáveis independentes com escalas diferentes terão contribuições diferentes para os termos penalizados, porque o termo penalizado é uma soma dos quadrados de todos os coeficientes. Para evitar esse tipo de problema, muitas vezes as variáveis independentes são centralizadas e escalonadas para obter variação 1.
[Depois edite para responder ao comentário]
h e i gh t . Agora, a altura humana pode ser medida em polegadas, metros ou quilômetros. Se medido em quilômetros, em comparação com a regressão linear padrão, acho que fornecerá um termo coeficiente muito maior do que se medido em milímetros.
O termo de penalização com lambda é o mesmo que expressar a função de perda quadrada em relação à soma dos coeficientes quadrados menores ou iguais a uma determinada constante. Isso significa que lambda maior dá muito espaço à soma quadrada de coeficientes e lambda menor, um espaço menor. Espaço maior ou menor significa valores absolutos maiores ou menores dos coeficientes.
Ao não usar a padronização, a adaptação ao modelo pode exigir grandes valores absolutos dos coeficientes. Obviamente, podemos ter um grande valor de coeficiente naturalmente, devido ao papel da variável no modelo. O que afirmo é que esse valor pode ter um valor inflado artificialmente devido à falta de escala. Portanto, o dimensionamento também diminui a necessidade de grandes valores de coeficientes. Assim, o valor ótimo de lambda seria geralmente menor, o que corresponde a uma menor soma dos valores quadrados dos coeficientes.