Use liblinear em big data para análise semântica

17

Eu uso o Libsvm para treinar dados e prever classificação no problema de análise semântica . Mas há um problema de desempenho em dados de larga escala, porque a análise semântica diz respeito ao problema da n-dimensão .

No ano passado, o Liblinear foi lançado e pode resolver gargalos de desempenho. Mas custou muita memória . O MapReduce é a única maneira de resolver problemas de análise semântica em big data? Ou existem outros métodos que podem melhorar o gargalo de memória no Liblinear ?

machine-learning bigdata libsvm

— Puffin GDI
fonte

11

Observe que há uma versão anterior do LIBLINEAR portada para o Apache Spark . Veja os comentários da lista de discussão para obter alguns detalhes iniciais e o site do projeto .

— Sean Owen
fonte

Obrigado pela sua resposta. Parece diferente do SVM. Eu vou pesquisar. :)

— Puffin GDI

4

Apenas um lembrete de que não incentivamos a vinculação externa a uma resposta, pois é fácil a quebra dos links, fazendo com que um recurso útil da comunidade se torne um beco sem saída. É sempre melhor colocar a resposta diretamente em sua postagem.

— Ana

1

Concordo com aquilo. Nesse ponto, ele quase não existe mais do que esse link. Vou adicionar um link para o projeto subjacente.

— Sean Owen

10

Você pode conferir o vowpal wabbit . É bastante popular para aprendizado em larga escala e inclui disposições paralelas.

No site deles:

A VW é a essência da velocidade no aprendizado de máquina, capaz de aprender com conjuntos de dados de terafeature com facilidade. Através do aprendizado paralelo, ele pode exceder a taxa de transferência de qualquer interface de rede de uma única máquina ao realizar um aprendizado linear, o primeiro entre os algoritmos de aprendizado.

— Marc Claesen
fonte

1

Código aberto e algum wiki. Isso parece bom. Obrigado por sua sugestão. :)

— Puffin GDI