Diferença entre tf-idf e tf com Random Forests


8

Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre o uso de recursos simples de tf (termo frequência). onde cada palavra tem um peso associado que representa o número de ocorrências no documento ou tf-idf (frequência do termo * frequência inversa do documento), onde o termo frequência também é multiplicado por um valor que representa a razão entre o número total de documentos e o número de documentos que contêm a palavra)?

Na minha opinião, não deve haver nenhuma diferença entre essas duas abordagens, porque a única diferença é um fator de escala em cada recurso, mas como a divisão é feita no nível de recursos únicos, isso não deve fazer diferença.

Estou certo no meu raciocínio?


Por que não testar as duas abordagens em um pequeno conjunto de amostras e ver se há alguma diferença?
Charlie Greenbacker

Respostas:


7

Árvores de decisão (e, portanto, florestas aleatórias) são insensíveis a transformações monótonas de recursos de entrada.

Como multiplicar pelo mesmo fator é uma transformação monótona, eu diria que, para florestas aleatórias, de fato não há diferença.

No entanto, você pode considerar o uso de outros classificadores que não possuem essa propriedade, portanto, ainda pode fazer sentido usar todo o TF * IDF.


1
Eu estava apenas tentando descobrir se meu raciocínio estava correto, por isso continuarei usando as Florestas Aleatórias, obrigado por sua ajuda!
papafe 23/09/14
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.