Eu acho que você deve olhar para os métodos de aprendizagem on - line . O perceptron e o perceptron do kernel são extremamente fáceis de codificar e funcionam muito bem na prática, e existem vários outros métodos online. Observe que qualquer método de aprendizado on-line pode ser convertido em um algoritmo de aprendizado em lote, caso em que se assemelham aos métodos de descida estocástica de gradiente.
Se você estiver usando o Matlab, há uma caixa de ferramentas muito boa chamada DOGMA, de Francesco Orabona, que contém vários algoritmos de aprendizado on-line, e você pode avaliar alguns métodos diferentes usando isso. Eu usei isso em algumas das minhas pesquisas e achei muito útil (note que, tanto quanto me lembro, os dados são esperados como [recursos x exemplos], para que você precise transpor esses dados).
Como outros já mencionaram, convém tentar reduzir a dimensionalidade. O PCA pode não ser uma opção tão boa aqui, pois você precisa calcular a matriz de covariância, que será muito cara. Você pode tentar olhar para projeções aleatórias . A teoria é dura, mas o princípio é muito simples. É baseado no Johnson-Lindenstrauss Lemma, se você estiver interessado, mas a idéia básica é que, se você projetar aleatoriamente em um espaço dimensional inferior, distâncias entre os pontos serão preservadas até ϵ . Se você estiver usando um kernel RBF, você precisará de ℓ 2 distâncias!ℓ2ϵℓ2