Estou usando a regressão de vetores de suporte para modelar alguns dados bastante distorcidos (com alta curtose). Eu tentei modelar os dados diretamente, mas estou recebendo previsões errôneas, principalmente devido à distribuição dos dados, que é distorcida com caudas muito grossas. Tenho certeza de que alguns discrepantes (que são pontos de dados legítimos) estão afetando o treinamento em SVR, e talvez também na validação cruzada, onde no momento estou otimizando os hiperparâmetros minimizando o erro médio quadrático.
Eu tentei escalar meus dados antes de aplicar o SVR (por exemplo, usando uma função sqrt para reduzir os valores discrepantes), bem como usar uma função de minimização de hiperparâmetro diferente (por exemplo, erro absoluto), que parece dar melhores resultados, mas ainda não muito boa. Estou curioso se alguém encontrou problemas semelhantes e como eles abordaram isso? Todas as sugestões e / ou métodos alternativos são bem-vindos.