Diferença entre tf-idf e tf com Random Forests

Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre o uso de recursos simples de tf (termo frequência). onde cada palavra tem um peso associado que representa o número de ocorrências no documento ou tf-idf (frequência do termo * frequência inversa do documento), onde o termo frequência também é multiplicado por um valor que representa a razão entre o número total de documentos e o número de documentos que contêm a palavra)?

Na minha opinião, não deve haver nenhuma diferença entre essas duas abordagens, porque a única diferença é um fator de escala em cada recurso, mas como a divisão é feita no nível de recursos únicos, isso não deve fazer diferença.

Estou certo no meu raciocínio?

classification text-mining random-forest

— papafe
fonte

Por que não testar as duas abordagens em um pequeno conjunto de amostras e ver se há alguma diferença?

— Charlie Greenbacker

Árvores de decisão (e, portanto, florestas aleatórias) são insensíveis a transformações monótonas de recursos de entrada.

Como multiplicar pelo mesmo fator é uma transformação monótona, eu diria que, para florestas aleatórias, de fato não há diferença.

No entanto, você pode considerar o uso de outros classificadores que não possuem essa propriedade, portanto, ainda pode fazer sentido usar todo o TF * IDF.

— Alexey Grigorev
fonte

Eu estava apenas tentando descobrir se meu raciocínio estava correto, por isso continuarei usando as Florestas Aleatórias, obrigado por sua ajuda!

— papafe 23/09/14