Aprendizagem semi-supervisionada, aprendizagem ativa e aprendizagem profunda para classificação

19

Edição final com todos os recursos atualizados:

Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação.

Desafio: dados rotulados bastante limitados e muito mais dados não rotulados.

Metas:

Aplicar classificação semi-supervisionada
Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo)

Encontrei muitas informações de trabalhos de pesquisa, como a aplicação de EM, SVM transdutivo ou S3VM (Semi-supervisionado SVM) ou, de alguma forma, uso de LDA, etc.

Pergunta: Onde estão as implementações e fontes práticas?

Atualização final (com base nas ajudas fornecidas por mpiktas, bayer e Dikran Marsupial)

Aprendizagem semi-supervisionada:

Aprendizado ativo:

Dualista : uma implementação de aprendizado ativo com código fonte na classificação de texto
Esta página da web oferece uma maravilhosa visão geral do aprendizado ativo.
Um workshop experimental de Design: aqui .

Aprendizagem profunda:

Vídeo introdutório aqui .
Site geral .
Tutorial de aprendizado de recursos não supervisionados e aprendizado profundo de Stanford .

— Floco
fonte

Há um pacote de R RTextTools . Se não me engano, ele implementa vários dos métodos mencionados.

— Mvctas # 7/11

Oi mpiktas, obrigado por sua ajuda. É um kit de ferramentas interessante. No entanto, parece estar lidando apenas com o aprendizado supervisionado, enquanto eu leio "O TextTools é um pacote de aprendizado de máquina gratuito e de código aberto para classificação automática de texto, o que simplifica a introdução de aprendizado supervisionado por usuários iniciantes e avançados. O pacote inclui nove algoritmos para classificação de conjuntos (svm, slda, boosting, ensacamento, florestas aleatórias, glmnet, árvores de decisão, redes neurais, entropia máxima) "

— Flake

Ok, aqui está outra tentativa: Weka . Os autores escreveram um livro e seu índice menciona aprendizado semi-supervisionado. Espero sinceramente que o capítulo não termine com "... infelizmente nenhum desses algoritmos foi implementado no Weka" :)

— mpiktas

Drat, peguei a versão mais antiga do livro! Muito obrigado por apontar esta fonte!

— Flake

8

Parece que o aprendizado profundo pode ser muito interessante para você. Este é um campo muito recente de modelos conexionistas profundos que são pré-treinados de maneira não supervisionada e posteriormente ajustados com supervisão. O ajuste fino requer muito menos amostras do que o pré-treinamento.

Para molhar a língua, recomendo [Semantig Hashing Salakhutdinov, Hinton . Veja os códigos encontrados para documentos distintos do corpus da Reuters: (sem supervisão!)

insira a descrição da imagem aqui

Se você precisar de algum código implementado, consulte deeplearning.net . Não acredito que existam soluções prontas para uso.

— bayerj
fonte

Esta é uma informação bastante interessante e nova para mim. É claro que implementações prontas para uso seriam melhores, mas isso realmente me ajuda a saber algo mais próximo do que eu quero. Obrigado.

— Flake

5

Isabelle Guyon (e colegas) organizou um desafio sobre a aprendizagem ativa há algum tempo, os procedimentos são publicados aqui (acesso aberto). Isso tem a vantagem de ser bastante prático e você pode comparar diretamente o desempenho de diferentes abordagens sob um protocolo imparcial (em sentido coloquial) (a seleção aleatória de padrões é surpreendentemente difícil de superar).

— Dikran Marsupial
fonte

0

Aqui está uma boa lista de bibliotecas.

http://www.infoworld.com/article/2608742/predictive-analytics/5-ways-to-add-machine-learning-to-java--javascript--and-more.html

— Karl Morrison
fonte