Existe um software que realiza uma análise textual em blogs? [fechadas]


8

Minha empresa procura criar uma visualização PivotViewer das postagens do blog Wordpress 2 de um cliente nos últimos 11 anos. Para fazer isso, no entanto, precisamos editar as tags um tanto aleatórias, incompletas e geralmente ruins para usar como categorias classificáveis. Estou procurando uma ferramenta que analise as entradas do blog e faça a contagem de palavras, para nos dar uma ideia do que estamos lidando.

Idealmente, ele teria todos esses recursos:

  1. Lista negra de palavras (ignorar)
  2. Palavra stemming
  3. Mesclagem de sinônimos personalizados
  4. Contando todos os usos
  5. Contando o número de postagens em que uma palavra aparece.

Eu pensaria que esse tipo de análise textual seria extremamente comum, mas não consegui encontrar nenhum software que faça esse tipo de coisa em blogs inteiros. Existe software disponível para fazer isso?


3
Interessante. Em caso de dúvida, o Python te ajuda.
James T Snell

Sim ... eu realmente espero que eu não tenha que me arriscar neste caso.
Brian Bauman

há algo que faz isso ... Eu me lembro de um amigo analisados wikipedia ... Vou verificar com ele amanhã
Keltari

Respostas:


3

O software que você está procurando pode ter muitos títulos, como "Análise de conteúdo" , "Nuvem de tags" ou "Meta Tags" e muito mais, como "análise de texto" e "mineração de texto".

Existem muitas ferramentas de software para esses fins, gratuitas e comerciais.

Não tenho experiência pessoal com essas ferramentas, mas um bom lugar para começar é o Text Analysis Tools, que lista dezenas dessas ferramentas, gratuitas e comerciais.

Outra lista é a Análise de texto, Mineração de texto e Software de recuperação de informações .


Filtrei o caminho através da primeira lista, mas nenhuma das opções gratuitas inclui muito mais do que análise linguística. Ainda não procurei na segunda lista - posso acabar rolando sozinho.
Brian Bauman

2

Dê uma olhada no Rapidminer ou Weka

Visto que é um blog de clientes, você provavelmente tem acesso ao banco de dados. Faça o download de todos os artigos como texto sem formatação e use um dos programas acima para lidar com as questões de processamento de linguagem natural (1,2,3 e 5).

É difícil automatizar o número de utilizações, pois tem a ver com a determinação automática do significado das palavras usando o contexto.


Contando todos os usos, não usuários. Obrigado pelas sugestões, no entanto.
Brian Bauman

Eu interpretei mal, mybad. Ainda assim, você deve fazer o check-out do Rapidminer ou Weka para processamento de idioma natural. Isto é, a menos que o conjunto de dados é enorme, porque tanto tentar encaixá-la na memória
suweller

2

um dos softwares de análise de mais conteúdo é o WordStat, desenvolvido pela Provalis Research

O WordStat é um módulo de análise de texto para o QDA Miner ou o SimStat. O WordStat combina o método de análise de conteúdo usando a abordagem de dicionário e a exploração de muitos algoritmos ou vários métodos de mineração de texto. O WordStat pode aplicar dicionários de categorização existentes a um novo corpus de texto. Também pode ser usado no desenvolvimento e validação de novos dicionários de categorização. Quando usado em conjunto com a codificação manual, este módulo pode fornecer assistência para uma aplicação mais sistemática das regras de codificação, ajudar a descobrir diferenças no uso de palavras entre subgrupos de indivíduos e auxiliar na revisão da codificação existente usando as tabelas KWIC (Keyword In Context). O WordStat foi projetado especificamente para estudar informações textuais, como respostas a perguntas abertas, entrevistas, títulos, artigos de periódicos, discursos públicos, comunicações eletrônicas, etc.

http://provalisresearch.com/products/content-analysis-software/



0

Algumas dessas perguntas podem ser respondidas de maneira rápida e suja usando a Pesquisa do Google em seu blog (mais fácil se ele tiver seu próprio domínio).


0

Zemanta faz análise e pode sugerir tags e links. É um plugin wordpress também.

Único problema: como está atualmente, requer abertura manual, seleção e salvamento de cada postagem.

Há um grande número de plugins de auto-tag para wordpress. Você deve procurar no localizador de plugins e tentar alguns.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.