Quantos dados de treinamento o word2vec precisa?

Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia".

Um breve plano foi

Pegue os livros que mencionam o termo "democracia" como texto simples
Em cada livro, substitua democracypordemocracy_%AuthorName%
Treine um word2vecmodelo nesses livros
Calcular a distância entre democracy_AuthorA, democracy_AuthorBe outras menções remarcadas de "democracia"

Portanto, a "democracia" de cada autor obtém seu próprio vetor, que é usado para comparação.

Mas parece que word2vecrequer muito mais do que vários livros (cada palavra com novo nome ocorre apenas em um subconjunto de livros) para treinar vetores confiáveis. A página oficial recomenda conjuntos de dados, incluindo bilhões de palavras.

Eu só queria perguntar qual o tamanho do subconjunto dos livros de um autor para fazer essa inferência word2vecou ferramentas alternativas, se disponíveis?

text-mining word-embeddings

— Anton Tarasenko
fonte

Os livros que você está usando unicamente sobre o tema da democracia, se não, a métrica de distância não pode ser inundada por diferenças maiores entre o conteúdo dos livros? Esse é um efeito colateral do seu problema estar em um espaço dimensional muito alto e ser tocado pela mão da maldição da dimensionalidade. Talvez levar apenas uma pequena região de texto em torno da palavra de interesse ajudaria, mas ainda é um problema com dimensão significativa.

— image_doctor

Sim, essa é a essência disso. aqui vai uma metáfora provavelmente mal pensada. Imagine capítulos de livros sendo representados por cores. E um livro todo representado como a mistura de todas as cores dos capítulos. Um livro sobre democracia na Europa Ocidental provavelmente acabaria com uma tonalidade avermelhada como a soma dos capítulos. Se representarmos o turismo de azul, um livro sobre Turismo em Cuba, com um único capítulo sobre democracia e sua influência no desenvolvimento econômico, terá um forte tom azul. Portanto, os dois livros pareceriam muito diferentes quando vistos como um todo.

— Image_doctor 23/07/2015

Essa é a maneira mais acessível de dizer o que um cientista de dados definiria como os vetores dos dois livros estarão muito distantes no espaço de recursos e, portanto, parecerão bastante diferentes. É realmente difícil quantificar de antemão quantos exemplos você precisará sem brincar com os dados, mas a linguagem é sutil e em camadas, então você provavelmente desejará o maior número possível ... e talvez mais. Em última análise, você não saberá até tentar. Não é uma resposta concreta, mas, a menos que alguém tenha experiência direta em fazer algo semelhante, é provavelmente o melhor que você terá.

— 237

O word2vec já usa "uma pequena região de texto em torno da palavra de interesse". Os windowconjuntos de parâmetros quantas palavras no contexto são usados para treinar o modelo para sua palavra w

— jamesmf

@politicalscientist Eu não tinha terminado este projeto.

— Anton Tarasenko

Parece que o doc2vec (ou vetores de parágrafo / contexto) pode ser adequado para esse problema.

Em poucas palavras, além dos vetores de palavras, você adiciona um "vetor de contexto" (no seu caso, uma incorporação ao autor) que é usado para prever as palavras do centro ou do contexto.

Isso significa que você se beneficiaria de todos os dados sobre "democracia", mas também extrairia uma incorporação para esse autor, que combinada deve permitir que você analise o viés de cada autor com dados limitados sobre cada autor.

Você pode usar a implementação do gensim . O documento inclui links para os documentos de origem.

— halflings
fonte