Em 2015, Tishby e Zaslavsky publicaram um artigo bem conhecido, alegando que o chamado Princípio do Gargalo da Informação poderia ser usado para entender algum comportamento de redes neurais profundas. Em um artigo mais recente (abril de 2017) , Schwartz-Ziv e Tishby expandem essas reivindicações, visualizando em particular alguns dos resultados.
No final de 2017, um artigo crítico de Saxe et al. foi publicado no site do OpenReview (com revisões tão recentes quanto 2 semanas atrás). Alega que muitas das alegações feitas no artigo de Schwartz-Ziv-Tishby não se sustentam, ou pelo menos não na generalidade reivindicada. De fato, se eu estiver lendo certo, eles alegam que o resultado visualizado é um artefato da escolha da função de ativação - algo que não deveria importar de acordo com a teoria.
No entanto, nos comentários, Schwartz-Ziv e Tishby aparecem com uma longa lista de comentários no artigo crítico, dizendo que a crítica erra o alvo. Por sua vez, os autores do artigo crítico respondem, mas talvez a conversa ainda não esteja concluída.
Estou interessado em iniciar um projeto de pesquisa sobre os aspectos de aprendizado profundo do gargalo da informação, mas estou preocupado que vou perder tempo aprendendo algo que já foi 'refutado'. Portanto, minha pergunta é:
Qual é a opinião atual dos especialistas sobre a aplicabilidade do Princípio do Gargalo de Informações na compreensão da Aprendizagem Profunda?
Em particular, estou interessado em pesquisas sobre o assunto além daquilo que vinculei e comentários de especialistas (direta ou indiretamente).