O viés opera por neurônio virtual, portanto, não há valor em ter várias entradas de viés onde há uma única saída - o que equivaleria a somar os diferentes pesos de viés em um único viés.
Nos mapas de recursos que são a saída da primeira camada oculta, as cores não são mais mantidas separadas *. Efetivamente, cada mapa de características é um "canal" na próxima camada, embora eles geralmente sejam visualizados separadamente, onde a entrada é visualizada com os canais combinados. Outra maneira de pensar sobre isso é que os canais RGB separados na imagem original são 3 "mapas de recursos" na entrada.
Não importa quantos canais ou recursos estejam em uma camada anterior, a saída para cada mapa de recursos na próxima camada é um valor único nesse mapa. Um valor de saída corresponde a um único neurônio virtual, necessitando de um peso parcial.
Em uma CNN, como você explica na pergunta, os mesmos pesos (incluindo o peso da polarização) são compartilhados em cada ponto do mapa de recursos de saída. Portanto, cada mapa de recursos tem seu próprio peso de polarização e previous_layer_num_features x kernel_width x kernel_height
pesos de conexão.
Portanto, sim, seu exemplo, resultando em (3 x (5x5) + 1) x 32
pesos totais para a primeira camada, está correto para uma CNN com a primeira camada oculta processando a entrada RGB em 32 mapas de recursos separados.
* Você pode ficar confuso vendo a visualização dos pesos da CNN, que podem ser separados nos canais de cores em que operam.