As redes Hopfield são capazes de armazenar um vetor e recuperá-lo a partir de uma versão barulhenta dele. Eles fazem isso configurando pesos para minimizar a função de energia quando todos os neurônios são definidos iguais aos valores do vetor e recuperam o vetor usando a versão barulhenta dele como entrada e permitindo que a rede se estabilize no mínimo de energia.
Deixando de lado problemas como o fato de que não há garantia de que a rede se estabeleça no mínimo mais próximo, etc - problemas resolvidos com máquinas Boltzmann e, eventualmente, com propagação traseira - o avanço foi que eles são um ponto de partida para ter representações abstratas. Duas versões do mesmo documento lembrariam o mesmo estado, elas seriam representadas, na rede, pelo mesmo estado.
Como o próprio Hopfield escreveu em seu artigo de 1982, redes neurais e sistemas físicos com habilidades computacionais coletivas emergentes
A presente modelagem pode então estar relacionada a como uma entidade ou Gestalt é lembrada ou categorizada com base em entradas que representam uma coleção de seus recursos.
Por outro lado, a inovação do aprendizado profundo foi a capacidade de criar múltiplas representações hierárquicas dos dados, levando a tornar a vida dos profissionais de IA mais fácil, simplificando a engenharia de recursos. (ver, por exemplo , Aprendizado de Representação: Uma Revisão e Novas Perspectivas , Bengio, Courville, Vincent).
Do ponto de vista conceitual, acredito que se pode ver o aprendizado profundo como uma generalização das redes Hopfield: de uma única representação a uma hierarquia de representação.
Isso também é verdade do ponto de vista computacional / topológico? Sem considerar o quão "simples" as redes Hopfield eram (neurônios de dois estados, não direcionados, função energética), pode-se ver cada camada de uma rede como uma rede Hopfield e todo o processo como uma extração sequencial da Gestalt previamente memorizada e uma reorganização estes Gestalt?