Estou tentando entender a parte da convolução das redes neurais convolucionais. Observando a figura a seguir:
Não tenho problemas para entender a primeira camada de convolução, na qual temos 4 núcleos diferentes (de tamanho ), que convolvemos com a imagem de entrada para obter 4 mapas de recursos.
O que não entendo é a próxima camada de convolução, de onde passamos de 4 mapas de recursos para 6 mapas de recursos. Suponho que temos 6 kernels nessa camada (consequentemente fornecendo 6 mapas de recursos de saída), mas como esses kernels funcionam nos 4 mapas de recursos mostrados em C1? Os kernels são tridimensionais ou são bidimensionais e replicados nos 4 mapas de recursos de entrada?