IDF incremental (frequência inversa de documentos)

Em um aplicativo de mineração de texto, uma abordagem simples é usar a heurística para criar vetores como representações esparsas compactas dos documentos. Isso é bom para a configuração do lote, onde o corpus inteiro é conhecido a priori, pois o requer o corpus inteiro $tf-idf$ $idf$

i d f (t) = \log \frac{| D |}{| {d : t \in d} |}

$\mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|}$

onde é um termo, é um documento, é o corpus do documento e (não mostrado) é o dicionário. $t$ $d$ $D$ $T$

No entanto, normalmente novos documentos são recebidos ao longo do tempo. Uma opção é continuar usando o existente até que tenham sido recebidos de um certo número de novos documentos, ea recalcular-lo. No entanto, isso parece bastante ineficiente. Alguém sabe de um esquema de atualização incremental que (possivelmente aproximadamente) converge para o valor se todos os dados foram vistos com antecedência? Ou, alternativamente, existe outra medida que captura a mesma noção, mas pode ser calculada de maneira incremental? $idf$

Há também uma questão relacionada se o permanece uma boa medida ao longo do tempo. Como o idf captura a noção de frequência das palavras de corpus, é concebível que documentos mais antigos do corpus (digamos, por exemplo, que meu corpus inclua mais de 100 anos de artigos de periódicos), à medida que as frequências de palavras diferentes mudem ao longo do tempo. Nesse caso, pode ser sensato descartar documentos mais antigos quando novos forem recebidos, com efeito usando uma janela deslizante . É concebível que também se possa armazenar todos os vetores anteriores à medida que novos são calculados e, se quisermos recuperar documentos, digamos 1920-1930, podemos usar os $idf$ $idf$ $idf$ $idf$ calculado a partir de documentos nesse período. Essa abordagem faz sentido?

Edit: Não é uma questão separada, mas relacionada sobre o dicionário . À medida que o tempo evolui, haverá novos termos de dicionário que não apareceram antes, então precisará crescer e, portanto, o comprimento do vetor . Parece que isso não seria um problema, pois os zeros poderiam ser anexados aos antigos vetores . $T$ $|T|$ $idf$ $idf$

time-series text-mining

— tdc
fonte

pergunta estúpida: É um problema armazenar o denominador para cada t? Como a relação de | t | para | d | parece (em geral)?

— Steffen

Desculpe, talvez a equação não esteja clara -

é a frequência inversa do documento do termo t, e não no tempo

. Então, no momento

você teria um vetor de comprimento

, ou seja, o tamanho do dicionário (que também pode ser alterado). Vou fazer edições nesse sentido.

i d f (t)

$idf(t)$

t

$t$

t

$t$

| T |

$|T|$

— tdc 23/11

Eu entendi a equação. Minha pergunta foi: Se armazenar o dicionário não é um problema, então: Em vez de armazenar | T | idfs one armazena | T | denominadores (da equação) + número de documentos. A atualização incremental não é um problema e o idf é calculado em tempo real. Tenho a sensação de ter esquecido alguma coisa.

— Steffen

Então você quer dizer algo como, dado um novo documento

, se temos o valor

, nós simplesmente adicionar um para o denominador para

d^{*}

$d^*$

d : t \in d

${d:t \in d}$

t : t \in d^{*}

${t:t \in d^*}$

— tdc

precisamente. Se isso é possível?

— Steffen

$z$

$z(t) = |\{d:t\in d\}|$

$d^*$

$z^*(t) = z(t) + \left\{ \begin{array}{ll} 1 & \mbox{if}\; {t\in d^*} \\ 0 & \mbox{otherwise} \end{array} \right.$

$tf-idf$ $idf$

Da mesma forma, para remover um documento antigo, decrementamos o numerador de maneira semelhante.

$tf$ $tf-idf$ $tf-idf$

$idf$ $z$ $z$ $idf$ $tf$

— tdc
fonte