Na regressão linear, você está ajustando:
y= f( β, X) =β0 0+β1x1+β2x2+ …
Você serve β dados de treinamento ( X, Y)
Suponha que você solte o β0 0 e ajuste o modelo, será o erro no ajuste:
∑Eu(yEu- f( β,XEu))2
ser maior do que se você incluísse? Em todos os casos (não degenerados), você pode provar que o erro será o mesmo ou menor (nos dados de treinamento) quando incluirβ0 0como o modelo é livre para usar esse parâmetro para reduzir o erro, se estiver presente e ajudar, e o definirá como zero se não ajudar. Além disso, suponha que você adicionou uma constante grande a y (suponha que sua saída precise ser+ 10000 dos dados de treinamento originais) e reinstale o modelo, depois β0 0 claramente se torna muito importante.
Talvez você esteja se referindo a modelos regularizados quando diz "suprimido". Como L1 e L2 são regularizados, esses métodos preferem manter os coeficientes próximos de zero (e você já deve ter média e variância normalizadas).Xde antemão para tornar este passo sensato. Na regularização, você pode optar por incluir o termo de interceptação (devemos preferir também ter um pequenoβ0 0?). Novamente, na maioria dos casos (todos os casos?), É melhor não regularizarβ0 0, uma vez que é improvável reduzir o sobreajuste e diminuir o espaço de funções representáveis (excluindo aquelas com alta β0 0) levando a um erro maior.
Nota lateral: a regressão logística do scikit regulariza a interceptação por padrão. Alguém sabe por que: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Não acho que seja uma boa ideia .