Saco de palavras vs modelo de espaço vetorial?


12

Qual é / são as diferenças entre estes modelos de representação de texto: Conjunto de palavras e modelo de espaço vetorial?


Saco de palavras é um conjunto que representa palavras únicas como um registro. O espaço vetorial de termo é um vetor booleano esparso que também registra a posição da palavra. Eu acho que.
precisa saber é o seguinte

Respostas:


15

O pacote de palavras e o modelo de espaço vetorial se referem a diferentes aspectos da caracterização de um corpo de texto, como um documento. Eles são descritos bem no livro "Processamento de fala e linguagem" de Jurafsky e Martin, 2009, na seção 23.1 sobre recuperação de informações. Uma referência mais concisa é "Introdução à recuperação de informações", de Manning, Raghavan e Schütze, 2008, na seção "O modelo de espaço vetorial para pontuação".

Saco de palavras refere-se a que tipo de informação você pode extrair de um documento (ou seja, palavras unigramas). O modelo de espaço vetorial refere-se à estrutura de dados de cada documento (ou seja, um vetor de característica dos pares termo e termo). Ambos os aspectos se complementam.

Mais especificamente:

Bag of words : para um determinado documento, você extrai apenas as palavras unigramas (termos conhecidos) para criar uma lista não ordenada de palavras. Nenhuma tag POS, sintaxe, semântica, posição, bigrams ou trigramas. Apenas as próprias palavras do unigrama, criando um monte de palavras para representar o documento. Assim: Saco de palavras .

Modelo de espaço vetorial : dado o conjunto de palavras que você extraiu do documento, você cria um vetor de recurso para o documento, em que cada recurso é uma palavra (termo) e o valor do recurso é um peso do termo. O termo peso pode ser:

  • um valor binário (com 1 indicando que o termo ocorreu no documento e 0 indicando que não ocorreu);
  • um valor de frequência do termo (indicando quantas vezes o termo ocorreu no documento); ou
  • um valor TF-IDF (por exemplo, um pequeno número de ponto flutuante como 1,23).

O documento inteiro é, portanto, um vetor de característica, e cada vetor de característica corresponde a um ponto em um espaço vetorial . O modelo para este espaço vetorial é tal que existe um eixo para cada termo no vocabulário e, portanto, o espaço vetorial é V- dimensional, onde V é o tamanho do vocabulário. O vetor também deve conceitualmente ser V- dimensional, com um recurso para cada termo do vocabulário. No entanto, como o vocabulário pode ser grande (da ordem de V = 100.000s de termos), o vetor de recurso de um documento normalmente conterá apenas os termos que ocorreram nesse documento e omitirá os termos que não o fizeram. Esse vetor de característica é considerado escasso .

Um exemplo de representação vetorial de um documento pode ser assim:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

onde esse vetor de exemplo tem um ID de documento (por exemplo, 42), um rótulo de verdade sobre o solo (por exemplo, política) e uma lista de características e valores de características que compreendem pares de termos e frequências de termos. Aqui, pode-se ver que a palavra "ausente" ocorreu 2 vezes neste documento.


1

Será que, ao usar Bag of Words, você atribui a frequência das palavras ao elemento da matriz termo do documento e no Vector Space Model os elementos da matriz termo termo do documento são bastante gerais, desde que as operações (produto em ponto) no espaço vetorial façam sentido (pesos tf-idf, por exemplo)?


Sim, também estou pensando que o VSM é uma versão aprimorada do pacote de palavras.
samsamara
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.