Para um modelo linear , o termo de retração é sempre .
Qual é o motivo pelo qual não termo de viés (interceptação) ? Devemos reduzir o termo de viés nos modelos de redes neurais?
Para um modelo linear , o termo de retração é sempre .
Qual é o motivo pelo qual não termo de viés (interceptação) ? Devemos reduzir o termo de viés nos modelos de redes neurais?
Respostas:
Os elementos de aprendizagem estatística de Hastie et al. defina a regressão de cume da seguinte forma (Seção 3.4.1, equação 3.41): ie excluir explicitamente o termo de interceptação da penalidade de cume. β 0
Então eles escrevem:
[...] observe que a interceptação foi deixada de fora do prazo da penalidade. A penalização da interceptação tornaria o procedimento dependente da origem escolhida para ; isto é, adicionar uma constante a cada um dos destinos não resultaria simplesmente em uma mudança das previsões pela mesma quantidade .
De fato, na presença do termo de interceptação, adicionar a todos simplesmente levará a aumentando em também e correspondentemente todos os valores previstos também aumentarão em . Isso não é verdade se a interceptação for penalizada: precisará aumentar em menos de .
De fato, existem várias propriedades agradáveis e convenientes da regressão linear que dependem da existência de um termo de interceptação adequado (não penalizado). Por exemplo, o valor médio de e o valor médio de são iguais e (conseqüentemente) o coeficiente de correlação múltipla quadrada é igual ao coeficiente de determinação : veja por exemplo, este tópico para uma explicação: interpretação geométrica do coeficiente de correlação múltipla e do coeficiente de determinação .
Penalizar a interceptação levaria a que tudo isso não fosse mais verdade.
Lembre-se do objetivo de retração ou regularização. É para impedir que o algoritmo de aprendizado ajuste demais os dados de treinamento ou de forma equivalente - evite escolher valores de parâmetros arbitrariamente grandes. Isso é mais provável para conjuntos de dados com mais de poucos exemplos de treinamento na presença de ruído (discussão muito interessante sobre a presença de ruído e seu impacto é discutida em "Aprendendo com os Dados", de Yaser Abu-Mustafa). Um modelo aprendido em dados ruidosos sem regularização provavelmente terá um desempenho ruim em alguns pontos de dados invisíveis.
Com isso em mente, imagine que você tem pontos de dados 2D que deseja classificar em duas classes. Com todos os parâmetros de polarização, exceto os fixos, a variação do termo de polarização apenas moverá o limite para cima ou para baixo. Você pode generalizar isso para um espaço dimensional mais alto.
O algoritmo de aprendizado não pode colocar valores arbitrariamente grandes para o termo de viés, pois isso resultará em um possível valor bruto de perda (o modelo não se ajustará aos dados de treinamento). Em outras palavras, dado um conjunto de treinamento, você (ou um algoritmo de aprendizado) não pode mover o avião arbitrariamente para longe do verdadeiro.
Portanto, não há razão para reduzir o termo de viés, o algoritmo de aprendizado encontrará o bom sem o risco de sobreajuste.
Uma observação final: vi em algum artigo que, ao trabalhar em espaços de alta dimensão para classificação, não há uma necessidade estrita de modelar o termo tendencioso. Isso pode funcionar para dados separáveis linearmente, pois com mais dimensões adicionadas, há mais possibilidades de separar as duas classes.
O termo interceptação não é absolutamente imune ao encolhimento. A formulação geral de "encolhimento" (isto é, regularização) coloca o termo de regularização na função de perda, por exemplo:
Onde geralmente está relacionado a uma norma de língua de beisebol e λ é um escalar que controla quanto peso colocamos no termo de encolhimento.
Ao colocar o termo de encolhimento na função de perda como esta, ele afeta todos os coeficientes do modelo. Eu suspeito que sua pergunta surge de uma confusão sobre a notação na qual o (em P ( β ) ) é um vetor de todos os coeficientes, inclusive β 0 . Seu modelo linear provavelmente seria melhor escrita como y = X β + ε onde X é a "matriz de design," por que eu quero dizer é os seus dados com uma coluna de 1 " é anexado ao lado esquerdo (para tirar a intercepção )
Agora, não posso falar sobre regularização para redes neurais. É possível que, para redes neurais, você queira evitar o encolhimento do termo de viés ou projetar a função de perda regularizada de maneira diferente da formulação descrita acima. Eu simplesmente não sei. Mas eu suspeito fortemente que os pesos e termos de viés sejam regularizados juntos.
Não tenho certeza de que a resposta acima de David Marx esteja certa; de acordo com Andrew Ng, por convenção, o coeficiente de viés / interceptação geralmente não é regularizado em uma regressão linear e, em qualquer caso, se é regularizado ou não, não faz uma diferença significativa.