O truque do kernel é usado em vários modelos de aprendizado de máquina (por exemplo, SVM ). Foi introduzido pela primeira vez no artigo "Fundamentos teóricos do método da função potencial no aprendizado de reconhecimento de padrões" em 1964.
A definição da Wikipedia diz que é
um método para usar um algoritmo de classificador linear para resolver um problema não linear, mapeando as observações não lineares originais em um espaço de maior dimensão, onde o classificador linear é usado posteriormente; isso torna uma classificação linear no novo espaço equivalente à classificação não linear no espaço original.
Um exemplo de modelo linear que foi estendido a problemas não lineares é o PCA do kernel . O truque do kernel pode ser aplicado a qualquer modelo linear ou possui certas restrições?