Existe consenso atual sobre o valor do Princípio do Gargalo de Informações para a compreensão da Aprendizagem Profunda?

Em 2015, Tishby e Zaslavsky publicaram um artigo bem conhecido, alegando que o chamado Princípio do Gargalo da Informação poderia ser usado para entender algum comportamento de redes neurais profundas. Em um artigo mais recente (abril de 2017) , Schwartz-Ziv e Tishby expandem essas reivindicações, visualizando em particular alguns dos resultados.

No final de 2017, um artigo crítico de Saxe et al. foi publicado no site do OpenReview (com revisões tão recentes quanto 2 semanas atrás). Alega que muitas das alegações feitas no artigo de Schwartz-Ziv-Tishby não se sustentam, ou pelo menos não na generalidade reivindicada. De fato, se eu estiver lendo certo, eles alegam que o resultado visualizado é um artefato da escolha da função de ativação - algo que não deveria importar de acordo com a teoria.

No entanto, nos comentários, Schwartz-Ziv e Tishby aparecem com uma longa lista de comentários no artigo crítico, dizendo que a crítica erra o alvo. Por sua vez, os autores do artigo crítico respondem, mas talvez a conversa ainda não esteja concluída.

Estou interessado em iniciar um projeto de pesquisa sobre os aspectos de aprendizado profundo do gargalo da informação, mas estou preocupado que vou perder tempo aprendendo algo que já foi 'refutado'. Portanto, minha pergunta é:

Qual é a opinião atual dos especialistas sobre a aplicabilidade do Princípio do Gargalo de Informações na compreensão da Aprendizagem Profunda?

Em particular, estou interessado em pesquisas sobre o assunto além daquilo que vinculei e comentários de especialistas (direta ou indiretamente).

— Mees de Vries
fonte

Eu acho que vale a pena notar que esta é uma área ativa de pesquisa e que este é um artigo muito recente. As respostas da revisão pré-publicação, revisão por pares e pós-publicação devem ser vistas, no total, como uma conversa contínua sobre o tópico, e não como uma etapa específica do processo que compreende a "última palavra". Ou, na visão hegeliana, o diálogo que você citou compreende os componentes tese-antítese da tríade, e ainda precisamos chegar à síntese.

— Sycorax diz Restabelecer Monica

nenhum consenso! Faça uma tentativa: eu e muitos outros membros da comunidade Deep Learning gostaríamos de ver mais trabalhos sobre isso. Claro, há um risco de falha, mas você sempre tem isso em pesquisa. Não posso comentar sobre o risco de "perder tempo", pois depende do que você tem em jogo: 5 anos de doutorado.

⟹

$\implies$ investimento pessoal significativo e, portanto, maior risco. 2 anos de pós-doutorado

⟹

$\implies$ menos chances de fazê-lo funcionar, mas também menos a perder. Mas eu posso tentar informações a cobrar para deixá-lo fazer um investimento mais informadas :-)

— DeltaIV

O PS também depende dos seus objetivos de carreira, que são off-topic aqui: como um tópico de pesquisa, é muito mais agradável para uma carreira acadêmica. Mas se você deseja trabalhar na indústria, há tópicos mais proveitosos no Deep Learning no momento. Esta é a IMO e outras pessoas no campo podem implorar para diferir.

— DeltaIV 7/0318

O que direi aqui é que as provas de que a compressão garante um limite inferior melhor à generalização são aceitas, mas não é amplamente aceito se esse limite inferior é praticamente relevante.

Por exemplo, um modelo com melhor compactação pode aumentar o limite inferior de 1,0 para 1,5, mas pode não ser relevante se todos os modelos já estiverem executando de 2,0 a 2,5. Da mesma forma, acho que é aparente que, embora a compressão seja suficiente para uma certa generalização garantida, ela claramente não é necessária (por exemplo, redes neurais invertíveis podem obter uma generalização perfeita).

Provavelmente, a conclusão correta é que a teoria e a análise são uma direção útil, mas não está claro se diz algo sobre redes reais.

— Alex Lamb
fonte