Então, eu estou tentando treinar imagens de humanos usando redes convolucionais. Leio os jornais ( Paper1 e paper2 ) e esta ligação stackoverflow , mas eu não estou certo que eu sou entender a estrutura das redes (não é bem definida nos jornais).
Questões:
Posso fazer com que minha entrada seja seguida por uma camada de ruído seguida por uma camada de conv, seguida por uma camada de pool - depois disso - desassocio antes de fornecer minha saída (que é igual à minha imagem de entrada)?
Digamos que eu tenha várias (135.240) imagens. Se eu usar 32, (12,21) núcleos, seguidos por (2,2) agrupamentos, terminarei com 32 (62, 110) mapas de recursos. Agora, removo o pool para obter 32 (124, 220) mapas de recursos e depois aplainá-los? antes de dar a minha (135.240) camada de saída?
Se eu tiver várias dessas camadas de conv-pool, devo treiná-las uma a uma - como em autoencodificadores empilhados? Ou - posso ter algo como input-conv-pool-conv-pool-conv-pool-output (a saída é igual à entrada)? Nesse caso, como o pool e o depool devem ser gerenciados? Devo cancelar o pool apenas na última camada do pool antes da saída? E, novamente - qual deve ser o fator de redimensionamento dessa remoção de pool? A intenção é trazer os mapas de recursos de volta à forma da entrada?
Devo introduzir camadas de ruído após cada camada de conv-pool-depool?
E então, quando o ajuste fino - devo remover as camadas de remoção do pool e deixar o resto da mesma forma. Ou devo remover as camadas de ruído e de remoção de pool
Alguém pode me indicar um URL / artigo que tenha detalhado a arquitetura de um codificador automático convolucional empilhado para fazer um pré-treinamento em imagens?