Não é tão simples. Antes de tudo, um SVM é, de certa forma, um tipo de rede neural (você pode aprender uma solução SVM por meio de retropropagação). Veja O que é uma Rede Neural Artificial? . Segundo, você não pode saber de antemão qual modelo funcionará melhor, mas o problema é que, com uma arquitetura totalmente neuromórfica, você pode aprender os pesos de ponta a ponta, enquanto anexa um SVM ou RF à última camada de ativação de uma CNN. simplesmente um procedimento ad hoc . Pode ter um desempenho melhor e, talvez não, não podemos saber sem testes.
A parte importante é que uma arquitetura totalmente convolucional é capaz de aprender representação, o que é útil por uma infinidade de razões. Pela primeira vez, isso pode reduzir ou eliminar completamente a engenharia de recursos no seu problema.
Sobre as camadas FC, elas são matematicamente equivalentes a camadas convolucionais 1x1. Veja o post de Yann Lecun , que transcrevo abaixo:
Nas redes convolucionais, não existem "camadas totalmente conectadas". Existem apenas camadas de convolução com kernels de convolução 1x1 e uma tabela de conexão completa.
É um fato raramente compreendido que ConvNets não precisam ter uma entrada de tamanho fixo. Você pode treiná-los em entradas que produzam um único vetor de saída (sem extensão espacial) e depois aplicá-las a imagens maiores. Em vez de um único vetor de saída, você obtém um mapa espacial dos vetores de saída. Cada vetor vê janelas de entrada em diferentes locais na entrada.
Nesse cenário, as "camadas totalmente conectadas" realmente atuam como convoluções 1x1.