Perguntas com a marcação «tf-idf»


1
Por que o Lucene IDF tem um +1 aparentemente adicional?
Dos documentos Lucene IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Em outras referências (isto é, wikipedia ), o IDF é normalmente calculado como ou para evitar mergulhar em 0.log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Também percebo que o Lucene usa vez de para calcular o TF, mas meu entendimento é que essa é apenas uma transformação preferida, …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.