Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia".
Um breve plano foi
- Pegue os livros que mencionam o termo "democracia" como texto simples
- Em cada livro, substitua
democracy
pordemocracy_%AuthorName%
- Treine um
word2vec
modelo nesses livros - Calcular a distância entre
democracy_AuthorA
,democracy_AuthorB
e outras menções remarcadas de "democracia"
Portanto, a "democracia" de cada autor obtém seu próprio vetor, que é usado para comparação.
Mas parece que word2vec
requer muito mais do que vários livros (cada palavra com novo nome ocorre apenas em um subconjunto de livros) para treinar vetores confiáveis. A página oficial recomenda conjuntos de dados, incluindo bilhões de palavras.
Eu só queria perguntar qual o tamanho do subconjunto dos livros de um autor para fazer essa inferência word2vec
ou ferramentas alternativas, se disponíveis?
window
conjuntos de parâmetros quantas palavras no contexto são usados para treinar o modelo para sua palavra w