Quando usar o quê - Machine Learning [fechado]

Recentemente, em uma aula de Machine Learning do professor Oriol Pujol da UPC / Barcelona, ele descreveu os algoritmos, princípios e conceitos mais comuns a serem usados em uma ampla variedade de tarefas relacionadas ao aprendizado de máquina. Aqui eu os compartilho com você e pergunto:

existe alguma estrutura abrangente que combine tarefas com abordagens ou métodos relacionados a diferentes tipos de problemas relacionados ao aprendizado de máquina?

Como aprendo um gaussiano simples? Probabilidade, variáveis aleatórias, distribuições; estimação, convergência e assintóticos, intervalo de confiança.

Como aprendo uma mistura de gaussianos (MoG)? Probabilidade, Maximização de Expectativas (EM); generalização, seleção de modelos, validação cruzada; k-means, modelos markov ocultos (HMM)

Como aprendo alguma densidade? Estimativa paramétrica vs. não paramétrica, Sobolev e outros espaços funcionais; 2 erro; Estimativa da densidade do kernel (KDE), núcleo ideal, teoria do KDE

Como eu prevejo uma variável contínua (regressão)? Regressão linear, regularização, regressão de crista e LASSO; regressão linear local; estimativa de densidade condicional.

Como eu prevejo uma variável discreta (classificação)? Classificador Bayes, Bayes ingênuo, generativo vs. discriminativo; perceptron, decaimento de peso, máquina de vetores de suporte linear; classificador e teoria do vizinho mais próximo

Qual função de perda devo usar? Teoria da estimativa da máxima verossimilhança; estimativa de l -2; Estimativa bayessiana; minimax e teoria da decisão, bayesianismo vs frequentismo

Qual modelo devo usar? AIC e BIC; Teoria de Vapnik-Chervonenskis; teoria de validação cruzada; inicialização; Teoria provavelmente Aproximadamente Correta (PAC); Limites derivados de Hoeffding

Como posso aprender modelos mais sofisticados (combinados)? Teoria de aprendizagem de conjuntos; impulso; ensacamento; empilhamento

Como posso aprender modelos mais extravagantes (não lineares)? Modelos lineares generalizados, regressão logística; Teorema de Kolmogorov, modelos aditivos generalizados; kernelization, reprodução de espaços de Hilbert do kernel, SVM não linear, regressão de processo gaussiana

Como posso aprender modelos mais extravagantes (composicionais)? Modelos recursivos, árvores de decisão, cluster hierárquico; redes neurais, propagação traseira, redes profundas de crenças; modelos gráficos, misturas de HMMs, campos aleatórios condicionais, redes Markov com margem máxima; modelos log-lineares; gramáticas

Como reduzo ou relaciono recursos? Seleção de recursos versus redução de dimensionalidade, métodos de wrapper para seleção de recursos; causalidade vs correlação, correlação parcial, aprendizado da estrutura líquida de Bayes

Como crio novos recursos? análise de componentes principais (PCA), análise de componentes independentes (ACI), escala multidimensional, aprendizado múltiplo, redução supervisionada de dimensionalidade, aprendizado métrico

Como reduzo ou relaciono os dados? Clustering, bi-clustering, clustering restrito; regras de associação e análise de cesta de compras; classificação / regressão ordinal; análise de links; dados relacionais

Como trato de séries temporais? ARMA; Filtro de Kalman e modelos stat-space, filtro de partículas; análise de dados funcionais; detecção de ponto de mudança; validação cruzada para séries temporais

Como trato dados não ideais? turno covariável; desequilíbrio de classe; dados ausentes, dados amostrados irregularmente, erros de medição; detecção de anomalias, robustez

Como otimizar os parâmetros? Otimização irrestrita vs restrita / convexa, métodos sem derivativos, métodos de primeira e segunda ordem, adaptação; gradiente natural; otimização vinculada e EM

Como otimizar funções lineares? álgebra linear computacional, inversão de matriz para regressão, decomposição de valor singular (SVD) para redução de dimensionalidade

Como otimizar com restrições? Convexidade, multiplicadores de Lagrange, condições de Karush-Kuhn-Tucker, métodos de pontos internos, algoritmo SMO para SVM

Como avalio somas profundamente aninhadas? Inferência exata do modelo gráfico, limites variacionais nas somas, inferência aproximada do modelo gráfico, propagação de expectativa

Como avalio grandes somas e pesquisas? Problemas generalizados do corpo N (PNB), estruturas hierárquicas de dados, busca por vizinhos mais próximos, método múltiplo rápido; Integração Monte Carlo, Markov Chain Monte Carlo, Monte Carlo SVD

Como trato problemas ainda maiores? EM paralelo / distribuído, PNB paralelo / distribuído; métodos estocásticos de subgradiente, aprendizado on-line

Como aplico tudo isso no mundo real? Visão geral das partes do ML, escolhendo entre os métodos a serem usados para cada tarefa, conhecimento prévio e premissas; análise exploratória de dados e visualização de informações; avaliação e interpretação, utilizando intervalos de confiança e teste de hipóteses, curvas ROC; onde os problemas de pesquisa em ML são

machine-learning algorithms

— Javierfdr
fonte

Realmente amplo. Eu acho que cada sub-pergunta deve ser uma pergunta separada para ter uma resposta significativa.

— Amir Ali Akbari

Essa pergunta pode ser qualificada como muito ampla ou não muito ampla, dependendo de como você a olha. Se a pergunta implicasse uma descrição detalhada de tarefas e métodos, isso certamente seria amplo não apenas para uma pergunta, mas também para um único livro. No entanto, não acho que essa pergunta implique essa interpretação . Acredito que esta questão busca uma estrutura ou taxonomia , combinando tarefas com abordagens ou métodos ( algoritmos e conceitos devem ser ignorados devido a problemas de granularidade). Nessa perspectiva, essa resposta não é muito ampla e, portanto, é válida para o IMHO.

— Aleksandr Blekh

@AleksandrBlekh Exatamente uma estrutura do tipo que você menciona é a intenção da pergunta. Estou editando para esclarecer. Obrigado

— Javierfdr

@Javierfdr: De nada.

— Aleksandr Blekh

@SeanOwen Modifiquei a questão principal. Por favor, diga-me se ainda é amplo e eu precisaria torná-lo mais nítido. THX!

— Javierfdr

Respostas:

Eu concordo com @geogaffer. Esta é uma lista muito boa, de fato. No entanto, vejo alguns problemas com esta lista, pois ela é formulada atualmente. Por exemplo, um problema é que as soluções sugeridas têm diferentes níveis de granularidade - algumas representam abordagens , alguns - métodos , alguns - algoritmos e outros - apenas conceitos (em outras palavras, termos na terminologia de domínio de um tópico). Além disso, - e acredito que isso é muito mais importante do que o acima exposto -, acho que seria muito valioso se todas essas soluções da lista fossem organizadas em um quadro estatístico temático unificado. Essa idéia foi inspirada pela leitura de um excelente livro de Lisa Harlow "A essência do pensamento multivariado". Por isso, recentemente iniciei uma discussão correspondente, ainda que um tanto limitada, no site Cross Validated do StackExchange . Não deixe que o título o confunda - minha intenção e esperança implícitas são a construção de uma estrutura unificada , como mencionado acima.

— Aleksandr Blekh
fonte

Essa estrutura que você mencionou seria ótimo! Há algo semelhante sendo escrito?

— precisa saber é o seguinte

@Javierfdr: Nada que eu saiba. No entanto, eu continuo procurando.

— Aleksandr Blekh

@AleksandrBlekh quanto mais penso nisso, mais acho que a busca por um quadro estatístico é equivocada. Veja a resposta de Frank Harrell em sua pergunta e minha resposta a esta. Mas o livro de Harlow parece realmente interessante e vou buscá-lo na biblioteca esta semana.

— shadowtalker

@ssdecontrol: Discordo respeitosamente. Supondo que essa estrutura não exista (o que é provavelmente o caso no momento) e percebendo que não é uma tarefa fácil criar uma, acredito firmemente que é muito possível, no entanto. Quanto às respostas que você mencionou (eu sempre leio todas elas), li as duas, mas elas não provam que criar essa estrutura é impossível - apenas difícil, como já mencionei. Isso não é algo que deve impedir as pessoas de pensarem nisso e até trabalharem nisso. Aproveite o livro de Harlow.

— Aleksandr Blekh

Essa é uma boa lista, cobrindo muito. Eu usei alguns desses métodos desde antes de qualquer coisa ser chamada de aprendizado de máquina, e acho que você verá alguns dos métodos listados entrando e saindo de uso com o tempo. Se um método estiver fora de moda por muito tempo, talvez seja hora de uma nova revisão. Alguns métodos podem ofuscar por trás de nomes diferentes resultantes de diferentes campos de estudo.

Uma das principais áreas que usei esses métodos é a modelagem de potencial mineral, que é geoespacial e para apoiar o acréscimo de algumas categorias adicionais relacionadas a métodos de dados espaciais e orientados.

Levar sua pergunta ampla para campos específicos provavelmente será onde você encontrará mais exemplos de métodos que não estão em sua lista abrangente. Por exemplo, dois métodos que eu já vi no potencial mineral foram a regressão passo a passo para trás e o peso da modelagem de evidências. Eu não sou estatístico; talvez estes sejam considerados cobertos na lista sob regressão linear e métodos bayesianos.

— geogaffer
fonte

Eu acho que sua abordagem é um pouco atrasada.

"Qual é a média de uma distribuição gaussiana ajustada a esses dados?" nunca é a declaração do problema, então "como encaixo um gaussiano?" nunca é o problema que você realmente deseja resolver.

A diferença é mais que semântica. Considere a questão de "como construo novos recursos?" Se seu objetivo é desenvolver um índice, você pode usar algum tipo de análise fatorial. Se seu objetivo é simplesmente reduzir o espaço do recurso antes de ajustar um modelo linear, você pode pular a etapa completamente e usar a regressão líquida elástica.

Uma abordagem melhor seria compilar uma lista de tarefas reais de análise de dados que você gostaria de poder executar . Perguntas como:

Como posso prever se os clientes retornarão ao meu site de compras?

Como faço para saber quantos padrões "principais" de compras para consumidores existem e quais são eles?

Como crio um índice de "volatilidade" para diferentes itens na minha loja online?

Além disso, sua lista agora inclui uma enorme quantidade de material; demais para "revisar" e obter mais do que uma compreensão no nível da superfície. Ter um objetivo real em mente pode ajudá-lo a definir suas prioridades.

— shadowtalker
fonte

Entendo o que você diz @ssdecontrol, na verdade, ter uma lista abrangente de soluções para problemas típicos, como você mencionou, também pode ser muito útil. Agora, a principal diferença entre as duas abordagens é que o que estou propondo está diretamente vinculado às perguntas técnicas que você pode se perguntar quando já está tentando alternativas, e nesse ponto você já fez algumas suposições. Como seus recursos não são gaussianos, devo usar o PCA para reduzir a dimensionalidade? Não. Sua abordagem é mais ampla: o que usar para escurecer. redução -> PCA, mas assume características gaussianas. Thx

— Javierfdr 21/01

@Javierfdr meu argumento é que as questões técnicas são uma distração se você não tiver uma pergunta substantiva em mente.

— shadowtalker