Devemos considerar o termo de interceptação ao fazer o kernel de algoritmos?

Quando um algoritmo de aprendizagem (por exemplo, classificação, regressão, clustering ou redução de dimensão) usa apenas o produto escalar entre pontos de dados , podemos usar implicitamente um mapeamento dimensional mais alto através do truque do kernel, troca de todos os casos em que o produto escalar ocorre pelo kernel . $\mathbf {x x^T}$ $\phi(\mathbf x)$ $\mathbf K = \phi(\mathbf x) \phi(\mathbf x) ^ \mathbf T$

Em modelos lineares, SVMs, por exemplo, é possível contabilizar uma interceptação na adição de uma coluna constante aos pontos de dados. Se usarmos o kernel linear , faz muito sentido manter essa coluna constante: você pode recuperar os coeficientes da coluna partir dos coeficientes do produto do kernel through e as soluções devem ser idênticas, usando o kernel ou não. $\mathbf K = \mathbf {x x^T}$ $\mathbf w$ $\mathbf u$ $\mathbf{w=x^T u}$

Mas e se o kernel não for linear, e se o mapeamento em dimensão infinita for impossível representar os coeficientes da coluna com , ainda faz sentido incluir um interceptar termo? $\mathbf{w=\phi(\mathbf x)^T u}$

— Firebug
fonte

Se o kernel é estacionário, a interceptação não faz diferença por definição.

— Sycorax diz Restabelecer Monica

Resposta parcial:

Focando nos SVMs por um tempo, cheguei a essa referência (apontada por @DikranMarsupial no termo Bias na máquina de vetores de suporte ):

Poggio, T., Mukherjee, S., Rifkin, R. e Rakhlin, A. (2001). Verri, A. b . Em Anais da Conferência sobre Incerteza em Computações Geométricas .

Excerto:

Este artigo é dedicado a responder às seguintes perguntas: Quando b deve ser usado? Existe uma opção de usar ou não usar b ? O que a escolha significa? As respostas são diferentes para RNs (redes de regularização) e SVMs? [...]

Em sua conclusão, eles mencionam que o uso de um termo de viés está relacionado a não privilegiar determinados valores para limites de classificação em SVMs. Além disso:

Para núcleos definidos condicionalmente positivos infinitos, o termo b é de fato necessário, permitindo uma interpretação natural do otimizador.
Para núcleos definidos positivos, a escolha natural é sem o termo b , no entanto, é possível usar um, levando a uma outra interpretação do kernel diferente daquela sem ele.

Veja que o minimizador é gravado incluindo um parâmetro explícito b a ser otimizado.

— Firebug
fonte