Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia".
Um breve plano foi
- Pegue os livros que mencionam o termo "democracia" como texto simples
- Em cada livro, substitua
democracypordemocracy_%AuthorName% - Treine um
word2vecmodelo nesses livros - Calcular a distância entre
democracy_AuthorA,democracy_AuthorBe outras menções remarcadas de "democracia"
Portanto, a "democracia" de cada autor obtém seu próprio vetor, que é usado para comparação.
Mas parece que word2vecrequer muito mais do que vários livros (cada palavra com novo nome ocorre apenas em um subconjunto de livros) para treinar vetores confiáveis. A página oficial recomenda conjuntos de dados, incluindo bilhões de palavras.
Eu só queria perguntar qual o tamanho do subconjunto dos livros de um autor para fazer essa inferência word2vecou ferramentas alternativas, se disponíveis?
windowconjuntos de parâmetros quantas palavras no contexto são usados para treinar o modelo para sua palavra w