Os métodos de aprendizado múltiplo do kernel visam construir um modelo de kernel em que o kernel é uma combinação linear de kernels de base fixa. O aprendizado do kernel consiste em aprender os coeficientes de ponderação de cada kernel base, em vez de otimizar os parâmetros do kernel de um único kernel.
As desvantagens do aprendizado de vários kernel parecem ser menos interpretáveis e caras em termos computacionais (para avaliar a saída do modelo, é necessário avaliar todos os kernels base). Portanto, se um desempenho semelhante puder ser alcançado simplesmente otimizando um único kernel, quais são as vantagens do MKL?