Estes são os meus dados de treinamento: 200.000 exemplos x 10.000 recursos. Portanto, minha matriz de dados de treinamento é - 200.000 x 10.000.
Consegui salvar isso em um arquivo simples sem problemas de memória, salvando todos os conjuntos de dados um por um (um exemplo após o outro) enquanto gerava os recursos para cada exemplo.
Porém, agora, quando uso Milk , SVM light ou qualquer outro algoritmo de aprendizado de máquina, tudo tenta carregar todos os dados de treinamento na memória, em vez de treiná-los um a um. No entanto, tenho apenas 8 GB de RAM, portanto não posso continuar dessa maneira.
Você sabia de qualquer maneira que eu poderia treinar o algoritmo um conjunto de dados por um conjunto de dados? Ou seja, para que a qualquer momento eu tenha apenas um conjunto de dados carregado na memória durante o treinamento.