Eu comentei isso em outra resposta, mas acho que merece sua própria resposta. Alguns bolsistas do Google Brain apresentaram um método para resolver o TSP usando uma arquitetura remanescente do seq2seq no artigo de 2017 OTIMIZAÇÃO COMBINATORIAL NEURAL COM APRENDIZAGEM DE REFORÇO . Na introdução, eles chamam um artigo (1985) que usa redes Hopfield para resolver o TSP. Então essa ideia já existe há algum tempo.
Outra resposta mencionou o artigo "Pointer Networks" de 2015. Ele fez algo semelhante a este artigo, mas era um algoritmo supervisionado - precisava de dados rotulados. O artigo de 2017 não exige isso (usando a duração negativa do passeio como sinal de recompensa em um algoritmo de aprendizado por reforço).
A heurística "sempre aposta em redes neurais" não me decepcionou (mas, novamente, nunca passei por um inverno de IA).