Isso é mais como uma pergunta geral da PNL. Qual é a entrada apropriada para treinar uma incorporação de palavras, ou seja, Word2Vec? Todas as frases pertencentes a um artigo devem ser um documento separado em um corpus? Ou cada artigo deve ser um documento no referido corpus? Este é apenas um exemplo usando python e gensim.
Corpus dividido por frase:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus dividido por artigo:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Treinamento do Word2Vec em Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)