Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre o uso de recursos simples de tf (termo frequência). onde cada palavra tem um peso associado que representa o número de ocorrências no documento ou tf-idf (frequência do termo * frequência inversa do documento), onde o termo frequência também é multiplicado por um valor que representa a razão entre o número total de documentos e o número de documentos que contêm a palavra)?
Na minha opinião, não deve haver nenhuma diferença entre essas duas abordagens, porque a única diferença é um fator de escala em cada recurso, mas como a divisão é feita no nível de recursos únicos, isso não deve fazer diferença.
Estou certo no meu raciocínio?