O desempenho de última geração relatado do uso de vetores de parágrafo para análise de sentimentos foi replicado?

Fiquei impressionado com os resultados no artigo da ICML 2014 " Representações distribuídas de frases e documentos " de Le e Mikolov. A técnica que eles descrevem, denominada "vetores de parágrafos", aprende representações não supervisionadas de parágrafos / documentos arbitrariamente longos, com base em uma extensão do modelo word2vec. O artigo relata o desempenho de ponta na análise de sentimentos usando esta técnica.

Eu esperava avaliar essa técnica em outros problemas de classificação de texto, como uma alternativa à representação tradicional de palavras-chave. No entanto, deparei com uma postagem do segundo autor em um tópico do grupo word2vec do Google que me deu uma pausa:

Tentei reproduzir os resultados de Quoc durante o verão; Eu poderia obter taxas de erro no conjunto de dados IMDB em torno de 9,4% a 10% (dependendo da qualidade da normalização do texto). No entanto, não consegui chegar nem perto do que Quoc relatou no artigo (erro de 7,4%, é uma enorme diferença) ... É claro que também perguntamos a Quoc sobre o código; ele prometeu publicá-lo, mas até agora nada aconteceu. ... Estou começando a pensar que os resultados do Quoc na verdade não são reproduzíveis.

Alguém já conseguiu reproduzir esses resultados ainda?

— bskaggs
fonte

Essa situação mudou ainda? Sei que o Gensim implementou uma versão do doc2vec (vetores de parágrafos / documentos), consulte: radimrehurek.com/gensim/models/doc2vec.html, mas nenhuma tentativa de reproduzir os resultados no artigo citado aqui.

— precisa saber é o seguinte

Sim, houve tentativas de reproduzir os resultados do papel usando o gensim : consulte o bloco de notas doc2vec IPython .

— Radim

Nota de rodapé em http://arxiv.org/abs/1412.5335 (um dos autores é Tomas Mikolov) diz

Em nossos experimentos, para coincidir com os resultados de (Le & Mikolov, 2014), seguimos a sugestão de Quoc Le de usar o softmax hierárquico em vez de amostragem negativa. No entanto, isso produz o resultado de precisão de 92,6% somente quando os dados de treinamento e teste não são embaralhados. Portanto, consideramos esse resultado inválido.

— Mikhail Korobov
fonte

Não entendo por que "não embaralhado" ==> inválido. Não existe uma divisão bem definida entre o conjunto de trem / teste? Para que o que é trem / teste dependa de como você embaralha o conjunto de dados (original)? A ordem do conjunto de testes não deve importar (não há avaliação dinâmica, certo?). E a ordem do conjunto de treinamento não deve importar muito, ou ...

— capybaralet

@ user2429920 Se eles estão obtendo diferenças, então claramente o pedido realmente importa.

— JAB