Com relação à abordagem, o SVM com um kernel RBF faz um bom trabalho, mas os SVMs podem ser lentificados com grandes tamanhos de objeto, a menos que você esteja empregando CV com, por exemplo, um décimo dos dados atribuídos aleatoriamente a cada dobra. No entanto, você se perguntou por que está empregando SVMs em primeiro lugar?
Você já tentou de regressão linear múltipla, , onde cada registro de é codificado se o th objeto está em classe e caso contrário? Se a precisão da classificação for sensivelmente alta usando a regressão linear, seus dados serão separáveis linearmente e não serão necessários métodos mais complexos, como SVMs e ANNs. O passo 2 seria mostrar que o vizinho mais próximo k, Bayes ingênuo, análise discriminante linear (Fisher), regressão logística politômica, etc., quebram e falham.Y=XβYyij=+1ijyij=−1
Para terminologia, você pode abordar a questão de ter mais pesos de classe no contexto de "proporções mais baixas de objetos em determinadas classes" ou "tamanho de classe quase zero". A inclinação tende a ser usada para descrever a distribuição dos valores de um recurso, como a inclinação, caudas gordas etc.
Quantos recursos você tem? Você tentou agrupar não supervisionado (descoberta de classe) nos 100.000 objetos antes de tentar a classificação supervisionada (previsão de classe) com o SVM? Talvez os 100.000 objetos possam ser agrupados em menos classes que 50, para as quais a nova associação de classe possa ser usada como classe de destino durante a análise de classificação. Isso pode aliviar o problema de ter tamanho de classe próximo de zero.