Em resumo, não há nada de especial no número de dimensões para convolução. Qualquer dimensionalidade da convolução pode ser considerada, se for adequada.
O número de dimensões é uma propriedade do problema que está sendo resolvido. Por exemplo, 1D para sinais de áudio, 2D para imagens, 3D para filmes. . .
Ignorando brevemente o número de dimensões, pode-se considerar os pontos fortes de uma rede neural convolucional (CNN), em comparação com modelos totalmente conectados, ao lidar com certos tipos de dados:
O uso de pesos compartilhados para cada local que a convolução processa reduz significativamente o número de parâmetros que precisam ser aprendidos, em comparação com os mesmos dados processados por meio de uma rede totalmente conectada.
Pesos compartilhados são uma forma de regularização.
A estrutura de um modelo convolucional faz fortes suposições sobre os relacionamentos locais nos dados, que quando verdadeiros o tornam um bom ajuste para o problema.
3.1 Padrões locais fornecem bons dados preditivos (e / ou podem ser combinados de maneira útil em padrões preditivos mais complexos em camadas superiores)
3.2 Os tipos de padrão encontrados nos dados podem ser encontrados em vários locais. Encontrar o mesmo padrão em um conjunto diferente de pontos de dados é significativo.
Essas propriedades das CNNs são independentes do número de dimensões. As CNNs unidimensionais trabalham com padrões em uma dimensão e tendem a ser úteis na análise de sinais sobre sinais de comprimento fixo. Eles funcionam bem para análise de sinais de áudio, por exemplo. Também para algum processamento de linguagem natural - embora as redes neurais recorrentes, que permitem diferentes comprimentos de sequência, possam ser mais adequadas, especialmente aquelas com arranjos de porta de memória, como LSTM ou GRU. Ainda assim, uma CNN pode ser mais fácil de gerenciar e você pode simplesmente preencher a entrada com um comprimento fixo.