Existe "regressão não supervisionada"?


Respostas:


20

Eu nunca encontrei esse termo antes. Não tenho certeza se isso espalharia a luz ou a escuridão dentro de qualquer domínio das estatísticas: aquelas que são aprendizado de máquina (onde distinções supervisionadas e não supervisionadas são fundamentais para a solução de problemas) e estatísticas inferenciais (onde a regressão, análise confirmatória e NHSTs são mais frequentemente empregadas).

Onde essas duas filosofias se sobrepõem, a maioria da regressão e da terminologia associada é lançada em um ambiente estritamente supervisionado. No entanto, acho que muitos conceitos existentes no aprendizado não supervisionado estão intimamente relacionados a abordagens baseadas em regressão, especialmente quando você ingenuamente itera cada classe ou recurso como resultado e agrupa os resultados. Um exemplo disso é a análise de correlação PCA e bivariada. Ao aplicar a melhor regressão de subconjunto iterativamente sobre várias variáveis, é possível fazer um tipo muito complexo de estimativa de rede, como é assumido na modelagem de equações estruturais (estritamente no sentido da EFA). Isso, para mim, parece um problema de aprendizado não supervisionado com regressão.

No entanto, as estimativas dos parâmetros de regressão não são reflexivas. Para a regressão linear simples, regredindo sobre X lhe dará resultados diferentes, inferência diferente, e estimativas diferentes (nem mesmo inversa necessariamente), de X sobre Y . Na minha opinião, essa falta de comutatividade torna as aplicações de regressão mais ingênuas inelegíveis para problemas de aprendizado não supervisionados.YXXY


4
+1, e voto a escuridão. Uma pesquisa no Google fornece várias referências à "regressão não supervisionada", muitas das quais são do tipo modelagem de equações estruturais / classes latentes. A partir de uma revisão breve destes papéis, eu pessoalmente tendem a descrevê-los como aplicar mínimos quadrados (LS) e métodos expectativa maximização (EM) para problemas sem supervisão, ao invés de "regressão sem supervisão"
JBK

Obrigado! Gostaria de saber se problemas de aprendizagem não supervisionados têm comutatividade?
StackExchange for All

A maioria dos aplicativos de aprendizado não supervisionado que encontrei lidam com estimativa de covariância e cluster (altamente relacionado). Como nesses aplicativos você pode permutar arbitrariamente colunas de dados sem causar nenhum desconforto, e não há necessidade de designar variáveis ​​como recursos ou respostas, eu diria que esses aplicativos são comutativos.
Adamo

4

O mais próximo que consigo pensar é em um pouco de magia negra que despertou as pessoas quando foi anunciada há alguns anos atrás, mas não acredito que tenha ganhado força real na comunidade. Os autores desenvolveram uma estatística que eles chamaram de "Coeficiente de Informação Máxima (CIM)". A idéia geral por trás de seu método é coletar dados altamente dimensionais, plotar cada variável em relação a todas as outras variáveis ​​em pares e, em seguida, aplicar um algoritmo interessante de exibição de janelas a cada gráfico (que calcula o MIC para essas duas variáveis) para determinar se há potencialmente um relacionamento entre as duas variáveis. A técnica deve ser robusta na identificação de relacionamentos estruturados arbitrariamente , não apenas lineares.

A técnica tem como alvo pares de variáveis, mas tenho certeza que poderia ser estendida para investigar relacionamentos multivariados. O principal problema seria que você teria que executar a técnica em significativamente mais combinações de variáveis, pois permite permutações de mais e mais variáveis. Eu imagino que provavelmente demore algum tempo apenas com pares: tentar usá-lo em dados remotamente de alta dimensão e considerar relacionamentos mais complexos do que pares de variáveis ​​se tornariam intratáveis ​​rapidamente.

Consulte o artigo Detectando novas associações em grandes conjuntos de dados (2011)


0

A regressão automática é uma maneira de calcular os pesos de uma matriz, minimizando o erro na entrada reconstruída de uma determinada entrada.


0

Esta pergunta veio à minha mente ao pesquisar a diferença entre métodos supervisionados e não supervisionados. Vindo de uma base econométrica, prefiro pensar em modelos, o que diminuiu minha compreensão, pois a maioria das literaturas de aprendizado de máquina que encontrei se concentra em métodos.

O que eu descobri até agora é que deve ser feita uma distinção estrita entre clustering(não supervisionado) versus classification(supervisionado). A analogia contínua da relação entre esses desenhos de modelo seria principal component analysis(não supervisionada) versuslinear regression (supervisionada).

No entanto, eu argumentaria que a relação entre agrupamento e classificação é pura coincidência; existe apenas quando interpretamos os dois modelos como descrevendo uma relação geométrica, que considero desnecessariamente restritiva. Todos os métodos não supervisionados que eu conheço (k-mean, algoritmos de mapa elástico, como kohonen / gás neural, DBSCAN, PCA) também podem ser interpretados como modelos de variáveis ​​latentes. No caso de métodos de clustering, isso equivaleria a visualizar pertencer a um cluster como estando em um estado, que pode ser codificado como um modelo de variável latente através da introdução de manequins de estado.

Dada a interpretação como modelos de variáveis ​​latentes, você pode especificar qualquer modelo, possivelmente não linear, que descreva seus recursos em termos de variáveis ​​latentes contínuas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.