Ultimamente, tenho trabalhado com grandes conjuntos de dados e encontrei muitos documentos sobre métodos de streaming. Para nomear alguns:
- Líder seguidor-regularizado e descida espelhada: teoremas de equivalência e regularização L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Aprendizado em fluxo contínuo: SVMs de uma passagem ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal estimado sub-GrAdient SOlver para SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- ou aqui: O SVM pode transmitir um aprendizado de exemplo por vez?
- Streaming de florestas aleatórias ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
No entanto, não consegui encontrar nenhuma documentação sobre como eles se comparam. Todos os artigos que li parecem executar experimentos em diferentes conjuntos de dados.
Eu sei sobre sofia-ml, vowpal wabbit, mas eles parecem implementar muito poucos métodos, em comparação com a enorme quantidade de métodos existentes!
Os algoritmos menos comuns não têm desempenho suficiente? Existe algum artigo tentando revisar o maior número possível de métodos?