Em termos gerais, uma função de kernel ou covariância especifica a relação estatística entre dois pontos x , x ′ no seu espaço de entrada; isto é, quão marcadamente uma mudança no valor do Processo Gaussiano (GP) em x se correlaciona com uma mudança no GP em x ′ . Em certo sentido, você pode pensar em k ( ⋅ , ⋅k ( x , x′)x , x′xx′ como definindo uma semelhança entre as entradas (*).k ( ⋅ , ⋅ )
Os kernels típicos podem simplesmente depender da distância euclidiana (ou transformações lineares dos mesmos) entre os pontos, mas a diversão começa quando você percebe que pode fazer muito, muito mais.
Como David Duvenaud coloca:
Os kernels podem ser definidos em todos os tipos de estruturas de dados: texto, imagens, matrizes e até kernels. Criar um kernel com um novo tipo de dados costumava ser uma maneira fácil de obter um documento NIPS.
Para uma visão geral fácil dos kernels para GPs, recomendo vivamente o seu Kernel Cookbook e suas referências.
(*) Como observa @Dikran Marsupial, cuidado para que o contrário não seja verdadeiro; nem todas as métricas de similaridade são kernels válidos (veja a resposta dele).