Por que o classificador de regressão de cume funciona muito bem para a classificação de texto?

Durante um experimento para classificação de texto, eu encontrei o classificador de cume gerando resultados que constantemente superam os testes entre os classificadores que são mais comumente mencionados e aplicados para tarefas de mineração de texto, como SVM, NB, kNN, etc. Embora eu não tenha elaborado na otimização de cada classificador nessa tarefa específica de classificação de texto, exceto alguns ajustes simples nos parâmetros.

Esse resultado também foi mencionado Dikran Marsupial .

Não vindo de estatísticas, depois de ler alguns materiais on-line, ainda não consigo descobrir as principais razões para isso. Alguém poderia fornecer algumas idéias sobre esse resultado?

— Floco
fonte

Respostas:

Os problemas de classificação de texto tendem a ser dimensionais bastante altos (muitos recursos), e é provável que os problemas dimensionais sejam separáveis linearmente (como é possível separar pontos d + 1 em um espaço d-dimensional com um classificador linear, independentemente de como os pontos estão rotulados). Portanto, é provável que os classificadores lineares, seja por regressão de crista ou SVM com um núcleo linear, sejam bem-sucedidos. Nos dois casos, o parâmetro cume ou C para o SVM (como tdc menciona +1) controla a complexidade do classificador e ajuda a evitar ajustes excessivos, separando os padrões de cada classe por grandes margens (ou seja, a superfície de decisão passa pelo meio do intervalo entre as duas coleções de pontos). No entanto, para obter um bom desempenho, os parâmetros de cumeeira / regularização precisam ser ajustados adequadamente (eu uso a validação cruzada deixar de fora, pois é barato).

No entanto, a razão pela qual a regressão da crista funciona bem é que os métodos não lineares são muito poderosos e é difícil evitar o ajuste excessivo. Pode haver um classificador não linear que ofereça melhor desempenho de generalização que o melhor modelo linear, mas é muito difícil estimar esses parâmetros usando a amostra finita de dados de treinamento que temos. Na prática, quanto mais simples o modelo, menos problemas temos em estimar os parâmetros; portanto, há menos tendência a ajustar demais, para obter melhores resultados na prática.

Outro problema é a seleção de recursos, a regressão da crista evita o ajuste excessivo, regularizando os pesos para mantê-los pequenos, e a seleção do modelo é direta, pois você só precisa escolher o valor de um único parâmetro de regressão. Se você tentar evitar o ajuste excessivo escolhendo o conjunto ideal de recursos, a seleção do modelo se torna difícil, pois existe um grau de liberdade (tipo de) para cada recurso, o que torna possível o ajuste excessivo do critério de seleção de recursos e você termine com um conjunto de recursos ideal para essa amostra específica de dados, mas com baixo desempenho de generalização. Portanto, não executar a seleção de recursos e usar a regularização geralmente oferece um melhor desempenho preditivo.

Costumo usar o Bagging (formar um comitê de modelos treinados em amostras de bootstrap do conjunto de treinamento) com modelos de regressão de crista, o que geralmente melhora o desempenho e, como todos os modelos são lineares, você pode combiná-los para formar um único modelo linear , portanto, não há impacto no desempenho em operação.

— Dikran Marsupial
fonte

d - 1

$d-1$

d

$d$

Normalmente, supõe-se que os pontos estejam na "posição geral", de modo que (por exemplo) eles não fiquem em uma linha reta; nesse caso, em um espaço 2-d, você pode separar quaisquer 3 pontos. Se todos os pontos estiverem em uma linha reta, na verdade eles habitam um subespaço 1-d incorporado em um espaço 2-d.

— Dikran Marsupial

Na wikipedia, há a afirmação "como o método calcula a média de vários preditores, não é útil para melhorar modelos lineares", embora não tenha certeza de por que isso deveria ser verdade.

— tdc

Também não vejo por que isso deveria ser verdade. Suspeito que o problema de um modelo linear ensacado possa ser representado exatamente por um único modelo linear; no entanto, o problema é a estimativa dos parâmetros do modelo único, não a forma do modelo. Descobri que o empacotamento melhora a generalização, mas o ganho geralmente é pequeno, a menos que você tenha muito mais recursos do que observações (para que a estimativa do modelo seja instável e uma pequena alteração nos dados produza uma grande alteração no modelo).

— Dikran Marsupial 07/12/11

Talvez você deva atualizar a página da Wikipedia! Você soa conhecedor sobre o assunto ...

— tdc

A regressão de Ridge, como o nome sugere, é um método de regressão, e não de classificação. Presumivelmente, você está usando um limite para transformá-lo em um classificador. De qualquer forma, você está simplesmente aprendendo um classificador linear definido por um hiperplano. A razão pela qual está funcionando é porque a tarefa em questão é essencialmente linearmente separável - isto é, um simples hiperplano é tudo o que é necessário para separar as classes. O parâmetro "cume" permite que ele funcione em casos que não são completamente linearmente separáveis ou em problemas com classificação insuficiente (nesse caso, a otimização seria degenerada).

Nesse caso, não há razão para que outros classificadores também não funcionem bem, assumindo que eles foram implementados corretamente. Por exemplo, o SVM encontra o "hiperplano de separação ideal" (ou seja, o hiperplano que maximiza a margem ou intervalo entre as classes). O Cparâmetro do SVM é um parâmetro de controle de capacidade análogo ao parâmetro cume, que permite algumas classificações incorretas (outliers). Supondo que o processo de seleção de parâmetros tenha sido realizado diligentemente, eu esperaria que os dois métodos produzissem quase exatamente os mesmos resultados em um conjunto de dados desse tipo.

— tdc
fonte

Lembro-me de ler que pode ser demonstrado que a classificação binária LS-SVM é equivalente à Regressão de Ridge nos rótulos -1,1; sua formulação é a mesma.

— Firebug

Pense que você pode estar certo sobre isso

— tdc