Eu acho que há algumas coisas confundindo você, então as primeiras coisas primeiro.
x [ n ]h [ n ]x [ n ]h [ n ]y[ n ] = ( x ⋆ h ) [ n ]
y[ n ] = ∑m = - ∞∞x [ m ] h [ n - m ]
O acima é para sinais unidimensionais, mas o mesmo pode ser dito para imagens, que são apenas sinais bidimensionais. Nesse caso, a equação se torna:
Eun e w[ r , c ] = ∑u = - ∞∞∑v = - ∞∞Euo l d[ u , v ] k [ r - u , c - v ]
Pictoricamente, é isso que está acontecendo:
De qualquer forma, o que deve ser lembrado é que o kernel , na verdade aprendido durante o treinamento de uma Rede Neural Profunda (DNN). Um kernel apenas será o que você convolve com a sua entrada. O DNN aprenderá o kernel, de modo a destacar certas facetas da imagem (ou imagem anterior), que serão boas para diminuir a perda do seu objetivo.
Este é o primeiro ponto crucial a entender: tradicionalmente, as pessoas projetam kernels, mas no Deep Learning, deixamos a rede decidir qual deve ser o melhor kernel. No entanto, a única coisa que especificamos são as dimensões do kernel. (Isso é chamado de hiperparâmetro, por exemplo, 5x5 ou 3x3 etc.).