Na prática, o motivo pelo qual os SVMs tendem a ser resistentes ao ajuste excessivo, mesmo nos casos em que o número de atributos é maior que o número de observações, é que ele usa regularização. A chave para evitar o ajuste excessivo está no ajuste cuidadoso do parâmetro de regularização, , e no caso de SVMs não lineares, na escolha cuidadosa do kernel e no ajuste dos parâmetros do kernel.C
O SVM é uma implementação aproximada de um limite para o erro de generalização, que depende da margem (essencialmente a distância do limite de decisão ao padrão mais próximo de cada classe), mas é independente da dimensionalidade do espaço de recurso (é por isso que usar o truque do kernel para mapear os dados em um espaço dimensional muito alto não é uma idéia tão ruim quanto possa parecer). Portanto, em princípio, os SVMs devem ser altamente resistentes a ajustes excessivos, mas na prática isso depende da escolha cuidadosa de e dos parâmetros do kernel. Infelizmente, o ajuste excessivo também pode ocorrer com bastante facilidade ao ajustar os hiper parâmetros, que é minha principal área de pesquisa, consulteC
GC Cawley e NLC Talbot, Prevenindo o ajuste excessivo na seleção de modelos via regularização bayesiana dos hiperparâmetros, Journal of Machine Learning Research, volume 8, páginas 841-861, abril de 2007. ( www )
e
GC Cawley e NLC Talbot, excesso de ajuste na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julho de 2010. ( www )
Ambos os trabalhos usam regressão de crista do núcleo, em vez do SVM, mas o mesmo problema surge com a mesma facilidade com os SVMs (também limites semelhantes se aplicam ao KRR, portanto não há muito o que escolher entre eles na prática). Então, de certa forma, os SVMs não resolvem realmente o problema de ajuste excessivo, eles apenas mudam o problema de ajuste de modelo para seleção de modelo.
Muitas vezes, é uma tentação tornar a vida um pouco mais fácil para o SVM, executando algum tipo de seleção de recurso primeiro. Isso geralmente piora a situação, pois, diferentemente do SVM, os algoritmos de seleção de recursos tendem a exibir mais ajustes à medida que o número de atributos aumenta. A menos que você queira saber quais são os atributos informativos, geralmente é melhor pular a etapa de seleção de recursos e usar a regularização para evitar o excesso de ajuste dos dados.
Em resumo, não há nenhum problema inerente ao uso de um SVM (ou outro modelo regularizado, como regressão de crista, LARS, Lasso, rede elástica etc.) em um problema com 120 observações e milhares de atributos, desde que os parâmetros de regularização sejam ajustados adequadamente .