Minha empresa procura criar uma visualização PivotViewer das postagens do blog Wordpress 2 de um cliente nos últimos 11 anos. Para fazer isso, no entanto, precisamos editar as tags um tanto aleatórias, incompletas e geralmente ruins para usar como categorias classificáveis. Estou procurando uma ferramenta que analise as entradas do blog e faça a contagem de palavras, para nos dar uma ideia do que estamos lidando.
Idealmente, ele teria todos esses recursos:
- Lista negra de palavras (ignorar)
- Palavra stemming
- Mesclagem de sinônimos personalizados
- Contando todos os usos
- Contando o número de postagens em que uma palavra aparece.
Eu pensaria que esse tipo de análise textual seria extremamente comum, mas não consegui encontrar nenhum software que faça esse tipo de coisa em blogs inteiros. Existe software disponível para fazer isso?