A resposta é muito direta: o TF-IDF pode obter melhores resultados do que simples frequências a termo quando combinado com alguns métodos supervisionados.
O exemplo canônico está usando similaridade de cosseno como uma medida de similaridade entre documentos. Tomar o cosseno do ângulo entre a representação vetorial de documentos TF-IDF pode recuperar com êxito documentos semelhantes relevantes com maior precisão do que apenas o TF.
Isso ocorre porque o IDF reduz o peso atribuído às palavras comuns e destaca as palavras incomuns em um documento. A maioria dos artigos de notícias não é sobre avestruzes; portanto, um artigo de notícias contendo "avestruz" é incomum, e gostaríamos de saber isso ao tentar encontrar documentos semelhantes.
Mas, no caso de categorização de texto usando técnicas padrão de supervisão supervisionada, por que se preocupar em diminuir o peso pela frequência de documentos no corpus? O próprio aluno não decidirá a importância de atribuir a cada palavra / combinação de palavras?
Isso ilustra um ponto-chave no aprendizado de máquina: melhores recursos tendem a superar um algoritmo mais inteligente. Uma ferramenta ML está apenas tentando aprender uma função para mapear as entradas para as saídas . Se nossa representação de é tão boa que eles já são basicamente (ou, em um caso ideal, literalmente sãoxyxyy), tornamos a tarefa muito mais fácil para nós mesmos e nossos computadores pobres e sobrecarregados! Acho que esse é um componente subestimado do campo - as pessoas passam muito tempo estudando e considerando os algoritmos porque são independentes do domínio, mas saber mais sobre seus dados e o problema que você está tentando resolver pode sugerir caminhos para coleta de dados aprimorada ou representação de dados que tornam a tarefa muito mais fácil - e tão fácil que um modelo de sofisticação sofisticada é desnecessário.
Vários recursos podem ser encontrados aqui , que reproduzo por conveniência.
K. Sparck Jones. "Uma interpretação estatística da especificidade do termo e sua aplicação na recuperação". Journal of Documentation, 28 (1). 1972.
G. Salton e Edward Fox e Wu Harry Wu. "Recuperação estendida de informações booleanas". Comunicações da ACM, 26 (11). 1983.
G. Salton e MJ McGill. "Introdução à recuperação de informação moderna". 1983
G. Salton e C. Buckley. "Abordagens de ponderação de termos na recuperação automática de texto". Processamento e gerenciamento de informações, 24 (5). 1988.
H. Wu e R. Luk e K. Wong e K. Kwok. "Interpretando pesos de termo de TF-IDF como tomando decisões relevantes". Transações da ACM em sistemas de informação, 26 (3). 2008.