Como você provavelmente notou ao anotar os problemas de otimização, a única diferença na minimização é qual norma de Hilbert usar para penalizar. Ou seja, para quantificar quais são os valores 'grandes' de para fins de penalização. Na configuração do RKHS, usamos o produto interno do RKHS, , enquanto a regressão do cume penaliza com relação à norma euclidiana.ααtKα
Uma consequência teórica interessante é como cada efeitos do método do espectro do kernel reprodução . Pela teoria de RKHS, temos que é simétrico positivo definido. Pelo teorema espectral, podemos escrever onde é a matriz diagonal de valores próprios e é a matriz ortonormal de vetores próprios. Consequentemente, na configuração RKHS,
Enquanto isso, na configuração de regressão Ridge, observe que por simetria,
KKK=UtDUDU
(K+λnI)−1Y=[Ut(D+λnI)U]−1Y=Ut[D+λnI]−1UY.
KtK=K2(K2+λnI)−1KY=[Ut(D2+λnI)U]−1KY=Ut[D2+λnI]−1UKY=Ut[D2+λnI]−1DUY=Ut[D+λnD−1]−1UY.
Deixe o espectro de ser . Na regressão RKHS, os autovalores são estabilizados por
. Na regressão de Ridge, temos
. Como resultado, o RKHS modifica uniformemente os valores próprios, enquanto o Ridge adiciona um valor maior se o correspondente for menor.
Kν1,…,νnνi→νi+λnνi→νi+λn/νiνi
Dependendo da escolha do kernel, as duas estimativas para podem estar próximas ou distantes uma da outra. A distância no sentido de norma do operador será
No entanto, isso ainda é limitado para um dadoα
∥αRKHS−αRidge∥ℓ2=∥ARKHSY−ARidgeY∥ℓ2≤∥[D+λnI]−1−[D+λnD−1]−1∥∞∥Y∥ℓ2≤maxi=1,…,n{|(νi+λn)−1−(νi+λn/νi)−1|}∥Y∥ℓ2≤maxi=1,…,n{λn|1−νi|(νi+λn)(ν2i+λn)}∥Y∥ℓ2
Y, portanto, seus dois estimadores não podem ser arbitrariamente distantes. Portanto, se o seu kernel estiver próximo da identidade, provavelmente haverá pouca diferença nas abordagens. Se seus kernels são muito diferentes, as duas abordagens ainda podem levar a resultados semelhantes.
Na prática, é difícil dizer definitivamente se um é melhor que o outro para uma dada situação. Como estamos minimizando em relação ao erro quadrado ao representar os dados em termos da função do kernel, estamos efetivamente escolhendo uma melhor curva de regressão no espaço correspondente das funções de Hilbert. Portanto, penalizar em relação ao produto interno da RKHS parece ser o caminho natural a seguir.