Os problemas de classificação de texto tendem a ser dimensionais bastante altos (muitos recursos), e é provável que os problemas dimensionais sejam separáveis linearmente (como é possível separar pontos d + 1 em um espaço d-dimensional com um classificador linear, independentemente de como os pontos estão rotulados). Portanto, é provável que os classificadores lineares, seja por regressão de crista ou SVM com um núcleo linear, sejam bem-sucedidos. Nos dois casos, o parâmetro cume ou C para o SVM (como tdc menciona +1) controla a complexidade do classificador e ajuda a evitar ajustes excessivos, separando os padrões de cada classe por grandes margens (ou seja, a superfície de decisão passa pelo meio do intervalo entre as duas coleções de pontos). No entanto, para obter um bom desempenho, os parâmetros de cumeeira / regularização precisam ser ajustados adequadamente (eu uso a validação cruzada deixar de fora, pois é barato).
No entanto, a razão pela qual a regressão da crista funciona bem é que os métodos não lineares são muito poderosos e é difícil evitar o ajuste excessivo. Pode haver um classificador não linear que ofereça melhor desempenho de generalização que o melhor modelo linear, mas é muito difícil estimar esses parâmetros usando a amostra finita de dados de treinamento que temos. Na prática, quanto mais simples o modelo, menos problemas temos em estimar os parâmetros; portanto, há menos tendência a ajustar demais, para obter melhores resultados na prática.
Outro problema é a seleção de recursos, a regressão da crista evita o ajuste excessivo, regularizando os pesos para mantê-los pequenos, e a seleção do modelo é direta, pois você só precisa escolher o valor de um único parâmetro de regressão. Se você tentar evitar o ajuste excessivo escolhendo o conjunto ideal de recursos, a seleção do modelo se torna difícil, pois existe um grau de liberdade (tipo de) para cada recurso, o que torna possível o ajuste excessivo do critério de seleção de recursos e você termine com um conjunto de recursos ideal para essa amostra específica de dados, mas com baixo desempenho de generalização. Portanto, não executar a seleção de recursos e usar a regularização geralmente oferece um melhor desempenho preditivo.
Costumo usar o Bagging (formar um comitê de modelos treinados em amostras de bootstrap do conjunto de treinamento) com modelos de regressão de crista, o que geralmente melhora o desempenho e, como todos os modelos são lineares, você pode combiná-los para formar um único modelo linear , portanto, não há impacto no desempenho em operação.