Atualmente, estou trabalhando com um conjunto de dados com uma ampla variedade de comprimentos de documentos - de uma única palavra a uma página inteira de texto. Além disso, a estrutura gramatical e o uso da pontuação variam muito de um documento para outro. O objetivo é classificar esses documentos em uma das cerca de 10 a 15 categorias. Atualmente, estou usando regressão de cume e regressão logística para a tarefa e CV para os valores alfa de cume. Os vetores de recursos são ngrams tf-idf.
Recentemente, notei que documentos mais longos têm muito menos probabilidade de serem categorizados. Por que esse pode ser o caso e como se "normaliza" para esse tipo de variação? Como uma pergunta mais geral, como se costuma lidar com diversos conjuntos de dados? Os documentos devem ser agrupados com base em métricas como comprimento do documento, uso de pontuação, rigor gramatical etc. e depois alimentados por diferentes classificadores?