Quando um algoritmo de aprendizagem (por exemplo, classificação, regressão, clustering ou redução de dimensão) usa apenas o produto escalar entre pontos de dados , podemos usar implicitamente um mapeamento dimensional mais alto através do truque do kernel, troca de todos os casos em que o produto escalar ocorre pelo kernel .
Em modelos lineares, SVMs, por exemplo, é possível contabilizar uma interceptação na adição de uma coluna constante aos pontos de dados. Se usarmos o kernel linear , faz muito sentido manter essa coluna constante: você pode recuperar os coeficientes da coluna partir dos coeficientes do produto do kernel through e as soluções devem ser idênticas, usando o kernel ou não.
Mas e se o kernel não for linear, e se o mapeamento em dimensão infinita for impossível representar os coeficientes da coluna com , ainda faz sentido incluir um interceptar termo?