Usando cluster no processamento de texto

11

Olá, esta é minha primeira pergunta na pilha de ciência de dados. Eu quero criar um algoritmo para classificação de texto. Suponha que eu tenha um grande conjunto de textos e artigos. Vamos dizer cerca de 5000 textos simples. Primeiro, uso uma função simples para determinar a frequência de todas as quatro e acima das palavras dos caracteres. Eu então uso isso como o recurso de cada amostra de treinamento. Agora, quero que meu algoritmo seja capaz de agrupar os conjuntos de treinamento de acordo com seus recursos, que aqui é a frequência de cada palavra no artigo. (Observe que, neste exemplo, cada artigo teria seu próprio recurso exclusivo, pois cada artigo possui um recurso diferente, por exemplo, um artigo tem 10 "água e 23" puro "e outro tem 8" política "e 14" alavancagem "). Você pode sugerir o melhor algoritmo de cluster possível para este exemplo?

text-mining clustering

— Rashid
fonte

5

Não sei se você já leu o SenseCluster de Ted Pedersen: http://senseclusters.sourceforge.net/ . Papel muito bom para agrupamento de sentido.

Além disso, ao analisar palavras, pense que "computador", "computadores", "computador" representam ... um conceito, portanto apenas um recurso. Muito importante para uma análise correta.

Para falar sobre o algoritmo de armazenamento em cluster, você pode usar um armazenamento em cluster hierárquico . Em cada etapa do algo, você mescla os 2 textos mais semelhantes de acordo com suas características (usando uma medida de dissimilaridade, distância euclidiana, por exemplo). Com essa medida de dissimilaridade, você é capaz de encontrar o melhor número de clusters e, portanto, o melhor agrupamento para seus textos e artigos.

Boa sorte :)

— JC R
fonte

6

Se você deseja prosseguir no seu caminho existente, sugiro normalizar a frequência de cada termo por sua popularidade em todo o corpus, promovendo palavras tão raras e, portanto, preditivas. Em seguida, use projeções aleatórias para reduzir a dimensionalidade desses vetores muito longos, para que seu algoritmo de agrupamento funcione melhor (você não deseja agrupar em espaços dimensionais altos).

Mas existem outras maneiras de modelar tópicos. Leia este tutorial para saber mais.

— Emre
fonte

2

Não posso dizer que é o melhor, mas a Análise Semântica Latente pode ser uma opção. Basicamente, é baseado na coocorrência, você precisa ponderá-lo primeiro.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

O problema é que o LSA não possui suporte estatístico firme.

Diverta-se

— Chen Guo
fonte

0

Uma maneira de classificar o texto é calculando a Frequência dos Termos e a Frequência Inversa de Documentos. Você pode consultar este documento: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
fonte