Dirichlet processos para aprendizagem supervisionada?


8

Parece que quando olho aqui os algoritmos da aprendizagem da moda, coisas como redes neurais, árvores potencializadas, máquinas de vetores de suporte, florestas aleatórias e amigos são promovidas por problemas de aprendizagem supervisionados. Os processos de Dirichlet e seus tipos parecem ser mencionados principalmente em problemas de aprendizado não supervisionado, como agrupamento de documentos ou imagens. Eu os vejo acostumados a problemas de regressão, ou como antecedentes de uso geral quando se deseja fazer estatísticas bayesianas de maneira não paramétrica ou semiparamétrica (por exemplo, como um prior flexível na distribuição de efeitos aleatórios em certos modelos), mas minha experiência limitada sugere que isso não vem tanto da multidão de aprendizado de máquina quanto dos estatísticos mais tradicionais. Eu fiz uma pequena pesquisa no Google e eu '

Então, os processos Dirichlet e seus primos são mais eficazes que os anteriores para modelos flexíveis de agrupamento? Eles não são competitivos em impulsionar, SVMs e redes neurais para problemas de aprendizado supervisionado? Eles são úteis apenas em determinadas situações para esses problemas? Ou minha impressão geral está incorreta?


Que tipo de regressão significa? na distribuição básica do PD? ou no parâmetro de mixagem? Eu acho que você teria dificuldade em encaixar esse modelo.
probabilityislogic

Ou você quer dizer algum tipo de "regressão" genérica em que você ajusta um PD multivariado às distribuições marginais e conjuntas.
probabilityislogic

A distribuição de ajuste @probabilityislogic, tirada do DP para articular e depois obter os condicionais, é o tipo de coisa que eu tinha em mente, com variações sobre esse tema. Modelar os pesos na construção de quebra de bastão é semelhante.
cara

Respostas:


1

Esta pergunta não está recebendo muita atenção, então vou responder para atualizar o que encontrei e (espero) estimular a discussão. Encontrei um artigo que estou ansioso para ler que usa DPMs para fazer a classificação (Shahbaba e Neal, 2007) que eles testaram em dados de dobras de proteínas. Essencialmente, parece que eles usaram algo semelhante ao que sugeri nos comentários acima. Comparou-se favorável contra redes neurais e máquinas de vetores de suporte. Isso me parece um alívio, já que dediquei muito tempo a esses modelos, visando problemas supervisionados de aprendizado de máquina. Parece que eu (talvez) não perdi meu tempo.


1

Dê uma olhada no processo DPpackage de R. Dirichlet pode ser usado pelo menos anteriormente para um efeito aleatório e para construir uma distribuição de erro não paramétrica para regressão.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.