qual é a diferença entre classificação de texto e modelos de tópicos?

20

Conheço a diferença entre agrupamento e classificação no aprendizado de máquina, mas não entendo a diferença entre classificação de texto e modelagem de tópicos para documentos. Posso usar a modelagem de tópicos sobre documentos para identificar um tópico? Posso usar métodos de classificação para classificar o texto nesses documentos?

classification text-mining topic-model

— Todos
fonte

28

Classificação de Texto

Dou-lhe um monte de documentos, cada um com uma etiqueta anexada. Peço que você saiba por que você acha que o conteúdo dos documentos recebeu esses rótulos com base em suas palavras. Então eu lhe dou novos documentos e pergunto o que você acha que deveria ser o rótulo de cada um. Os rótulos têm significado para mim, não para você necessariamente.

Modelagem de Tópicos

Dou-lhe um monte de documentos, sem etiquetas. Peço que explique por que os documentos têm as palavras que eles têm, identificando alguns tópicos sobre os quais cada um é "relacionado". Você me diz os tópicos, dizendo quanto de cada um está em cada documento, e eu decido o que os tópicos "significam", se houver.

Você teria que esclarecer o que você me "identifica um tópico" ou "classifica o texto".

— Sean Owen
fonte

10

Mas não sei qual é a diferença entre classificação de texto e modelos de tópico em documentos

Text Classificationé uma forma de aprendizado supervisionado; portanto, o conjunto de classes possíveis é conhecido / definido com antecedência e não muda.

Topic Modelingé uma forma de aprendizado não supervisionado (semelhante ao agrupamento); portanto, o conjunto de tópicos possíveis é desconhecido a priori . Eles são definidos como parte da geração dos modelos de tópicos. Com um algoritmo não determinístico como o LDA, você terá diferentes tópicos cada vez que executa o algoritmo.

Text classificationgeralmente envolve classes mutuamente exclusivas - pense nelas como baldes.
Mas não é necessário: dado o tipo certo de dados de entrada rotulados, você pode definir uma série de classificadores binários não mutuamente exclusivos.

Topic modelinggeralmente não é mutuamente exclusivo: o mesmo documento pode ter sua distribuição de probabilidade espalhada por muitos tópicos. Além disso, também existem métodos de modelagem hierárquica de tópicos.

Também posso usar o modelo de tópico para os documentos para identificar um tópico posteriormente. Posso usar a classificação para classificar o texto dentro desses documentos?

Se você está perguntando se pode pegar todos os documentos atribuídos a um tópico por um algoritmo de modelagem de tópicos e aplicar um classificador a essa coleção, sim, certamente você pode fazê-lo.

Não tenho certeza se faz muito sentido: no mínimo, você precisará escolher um limite para a distribuição de probabilidade do tópico acima da qual incluirá documentos em sua coleção (normalmente 0,05-0,1).

Você pode elaborar seu caso de uso?

A propósito, há um ótimo tutorial sobre modelagem de tópicos usando a biblioteca MALLET para Java disponível aqui: Introdução à Modelagem de Tópicos e MALLET

— Charlie Greenbacker
fonte

4

Os modelos de tópicos geralmente não são supervisionados . Também existem "modelos de tópicos supervisionados"; mas mesmo assim eles tentam modelar tópicos dentro de uma classe .

Por exemplo, você pode ter uma classe "futebol", mas pode haver tópicos nessa classe relacionados a jogos ou equipes específicos.

O desafio dos tópicos é que eles mudam com o tempo; considere o exemplo de correspondências acima. Tais tópicos podem surgir e desaparecer novamente.

— Erich Schubert
fonte