Razão para não reduzir o termo de viés (interceptação) na regressão

21

Para um modelo linear , o termo de retração é sempre . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

Qual é o motivo pelo qual não termo de viés (interceptação) ? Devemos reduzir o termo de viés nos modelos de redes neurais? $\beta_0$

— yliueagle
fonte

A biblioteca liblinear de regressão logística como usado em scikit-learn penaliza a termo viés (acho que isso é um artefato de implementação, o viés é tratada como variável de entrada adicional)

— seanv507

33

Os elementos de aprendizagem estatística de Hastie et al. defina a regressão de cume da seguinte forma (Seção 3.4.1, equação 3.41): ie excluir explicitamente o termo de interceptação da penalidade de cume.

\hat{β}^{r Eu d g e} = \underset{β}{uma r g m Eu n} {\sum_{Eu = 1}^{N} (y_{Eu} - β_{0 0} - \sum_{j = 1}^{p} x_{Eu j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Então eles escrevem:

[...] observe que a interceptação foi deixada de fora do prazo da penalidade. A penalização da interceptação tornaria o procedimento dependente da origem escolhida para ; isto é, adicionar uma constante a cada um dos destinos não resultaria simplesmente em uma mudança das previsões pela mesma quantidade . $\beta_0$ $Y$ $c$ $y_i$ $c$

De fato, na presença do termo de interceptação, adicionar a todos simplesmente levará a aumentando em também e correspondentemente todos os valores previstos também aumentarão em . Isso não é verdade se a interceptação for penalizada: precisará aumentar em menos de . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

De fato, existem várias propriedades agradáveis e convenientes da regressão linear que dependem da existência de um termo de interceptação adequado (não penalizado). Por exemplo, o valor médio de e o valor médio de são iguais e (conseqüentemente) o coeficiente de correlação múltipla quadrada é igual ao coeficiente de determinação : veja por exemplo, este tópico para uma explicação: interpretação geométrica do coeficiente de correlação múltipla e do coeficiente de determinação . $y_i$ $\hat y_i$ $R$ $R^2$

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{__\hat{y} {__}^{2}}{__y {__}^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Penalizar a interceptação levaria a que tudo isso não fosse mais verdade.

— ameba diz Restabelecer Monica
fonte

2

Lembre-se do objetivo de retração ou regularização. É para impedir que o algoritmo de aprendizado ajuste demais os dados de treinamento ou de forma equivalente - evite escolher valores de parâmetros arbitrariamente grandes. Isso é mais provável para conjuntos de dados com mais de poucos exemplos de treinamento na presença de ruído (discussão muito interessante sobre a presença de ruído e seu impacto é discutida em "Aprendendo com os Dados", de Yaser Abu-Mustafa). Um modelo aprendido em dados ruidosos sem regularização provavelmente terá um desempenho ruim em alguns pontos de dados invisíveis.

Com isso em mente, imagine que você tem pontos de dados 2D que deseja classificar em duas classes. Com todos os parâmetros de polarização, exceto os fixos, a variação do termo de polarização apenas moverá o limite para cima ou para baixo. Você pode generalizar isso para um espaço dimensional mais alto.

O algoritmo de aprendizado não pode colocar valores arbitrariamente grandes para o termo de viés, pois isso resultará em um possível valor bruto de perda (o modelo não se ajustará aos dados de treinamento). Em outras palavras, dado um conjunto de treinamento, você (ou um algoritmo de aprendizado) não pode mover o avião arbitrariamente para longe do verdadeiro.

Portanto, não há razão para reduzir o termo de viés, o algoritmo de aprendizado encontrará o bom sem o risco de sobreajuste.

Uma observação final: vi em algum artigo que, ao trabalhar em espaços de alta dimensão para classificação, não há uma necessidade estrita de modelar o termo tendencioso. Isso pode funcionar para dados separáveis linearmente, pois com mais dimensões adicionadas, há mais possibilidades de separar as duas classes.

— Vladislavs Dovgalecs
fonte

Você pode fornecer referências para alguns artigos que dizem "ao trabalhar em espaços de alta dimensão para classificação, não há uma necessidade estrita de modelar o termo tendencioso"?

— Chandresh

1

O termo interceptação não é absolutamente imune ao encolhimento. A formulação geral de "encolhimento" (isto é, regularização) coloca o termo de regularização na função de perda, por exemplo:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Onde geralmente está relacionado a uma norma de língua de beisebol e é um escalar que controla quanto peso colocamos no termo de encolhimento. $f(\beta)$ $\lambda$

Ao colocar o termo de encolhimento na função de perda como esta, ele afeta todos os coeficientes do modelo. Eu suspeito que sua pergunta surge de uma confusão sobre a notação na qual o (em ) é um vetor de todos os coeficientes, inclusive . Seu modelo linear provavelmente seria melhor escrita como onde é a "matriz de design," por que eu quero dizer é os seus dados com uma coluna de anexado ao lado esquerdo (para tirar a intercepção ) $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Agora, não posso falar sobre regularização para redes neurais. É possível que, para redes neurais, você queira evitar o encolhimento do termo de viés ou projetar a função de perda regularizada de maneira diferente da formulação descrita acima. Eu simplesmente não sei. Mas eu suspeito fortemente que os pesos e termos de viés sejam regularizados juntos.

— David Marx
fonte

2

Depende da convenção, mas, por exemplo, The Elements of Statistical Learning por Hastie et al. defina a regressão de crista de tal forma que a interceptação não seja penalizada (veja minha resposta). Eu suspeito que isso possa ser mais padrão do que o contrário.

— Ameba diz Reinstate Monica

1

Não tenho certeza de que a resposta acima de David Marx esteja certa; de acordo com Andrew Ng, por convenção, o coeficiente de viés / interceptação geralmente não é regularizado em uma regressão linear e, em qualquer caso, se é regularizado ou não, não faz uma diferença significativa.

— xenocyon
fonte

1

Vou dar a explicação mais simples e depois expandir.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0 0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0 0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Este modelo não é tão sexy quanto o modelo original, é bastante bobo, na verdade. No entanto, é um modelo legítimo. Você pode executar o ANOVA nele, por exemplo.

$\beta_0=E[y_t]$

— Aksakal
fonte