Estou procurando projetar um sistema que, com um parágrafo de texto, possa categorizá-lo e identificar o contexto:
- É treinado com parágrafos de texto gerados pelo usuário (como comentários / perguntas / respostas)
- Cada item do conjunto de treinamento será marcado com. Assim, por exemplo ("categoria 1", "parágrafo de texto")
- Haverá centenas de categorias
Qual seria a melhor abordagem para construir esse sistema? Eu estive procurando algumas opções diferentes e a seguir está uma lista de possíveis soluções. O Word2Vec / NN é a melhor solução no momento?
- Rede de tensores neurais recursivos alimentada com dados médios do Word2Vec
- RNTN e o vetor de parágrafo ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF usado em uma rede Deep Belief
- TF-IDF e regressão logística
- Saco de palavras e classificação Naive Bayes