Esta postagem foi atualizada muito. Na parte superior, você pode ver as atualizações de links. Abaixo, variações na resposta inicial. Para a versão curta: sucessos de redes neurais convolucionais e aprendizado profundo parecem uma espécie de revolução galileana. Para um ponto de vista prático, o processamento clássico de sinais ou a visão computacional estão inoperantes ... desde que você tenha dados rotulados suficientes, se preocupe pouco com falhas evidentes de classificação ( falhas profundas ), tenha energia infinita para executar testes sem pensar na pegada de carbono , e não se incomode com explicações racionais. Para os outros, isso nos fez repensar tudo o que fizemos antes: extração de recursos, otimização (cf. meu colega J.-C. Pesquet trabalha em Estruturas de Redes Neurais Profundas Resolvendo Desigualdades Variacionais), invariância, quantificação etc. E uma pesquisa realmente interessante está emergindo disso, esperançosamente alcançando princípios firmemente fundamentados e desempenho semelhante.
Links atualizados:
Introduzimos exemplos contraditórios naturais - exemplos do mundo real, não modificados e de ocorrência natural que causam uma degradação significativa na precisão do classificador. Selecionamos 7.500 exemplos adversários naturais e os liberamos em um conjunto de testes do classificador ImageNet que chamamos de ImageNet-A. Esse conjunto de dados serve como uma nova maneira de medir a robustez do classificador. Como os exemplos adversários do l_p, os exemplos do ImageNet-A são transferidos com sucesso para classificadores invisíveis ou de caixa preta. Por exemplo, no ImageNet-A, o DenseNet-121 obtém cerca de 2% de precisão, uma queda de precisão de aproximadamente 90%. A recuperação dessa precisão não é simples, porque os exemplos do ImageNet-A exploram falhas profundas nos classificadores atuais, incluindo a dependência excessiva de cores, texturas e sugestões de segundo plano. Observamos que as técnicas populares de treinamento para melhorar a robustez têm pouco efeito, mas mostramos que algumas mudanças na arquitetura podem aumentar a robustez dos exemplos contraditórios naturais. Pesquisas futuras são necessárias para permitir generalização robusta para este conjunto de testes ImageNet difícil.
- 03/03/2019: Aprendizado profundo: a fronteira final para o processamento de sinais e análise de séries temporais? "Neste artigo, quero mostrar várias áreas em que sinais ou séries temporais são vitais"
- 23/04/2018: Acabo de voltar da conferência internacional anual sobre acústica, processamento de fala e sinal, ICASSP 2018 . Fiquei impressionado com a quantidade de trabalhos que, de certa forma, dependiam de Deep Learning, Deep Networks, etc. Dois em cada quatro (de Alex Acero e Yann LeCun) foram dedicados a esse tópico. Ao mesmo tempo, a maioria dos pesquisadores que conheci estava brincando sobre isso ("Desculpe, meu pôster está nos bancos de filtros, não no Deep Learning", "Eu não gosto disso, tenho pequenos conjuntos de dados") ou estavam pensando em ganhar 0,5% em grandes desafios e perder os interessados em modelar a física ou os estatísticos anteriores.
- 14/01/2018: Uma rede profunda pode ver um gato? , de "gato abstrato" a "melhor gato" invertido, desenhado etc., e de alguma forma surpreendendo os resultados nos esboços
- 02/11/2017: referências adicionadas a transformações / redes de dispersão
- 21/10/2017: Uma revisão das redes neurais convolucionais para problemas inversos em imagens
- Deep Learning e suas aplicações no processamento de sinais e informações , Revista IEEE Signal Processing, janeiro de 2011
Referências de aprendizado profundo "passo a passo" no processamento padrão de sinal / imagem podem ser encontradas na parte inferior. Michael Elad acabou de escrever Deep, Deep Trouble: o impacto da Deep Learning no processamento de imagens, matemática e humanidade (SIAM News, 2017/05), trecho:
Então as redes neurais voltaram subitamente, e com uma vingança.
Esse tribuno é de interesse, pois mostra uma mudança do "processamento de imagem" tradicional, tentando modelar / entender os dados, para um campo de correção, sem tanta percepção.
Este domínio está evoluindo bastante rápido. Isso não significa que ele evolua em alguma direção intencional ou constante. Nem certo nem errado. Mas nesta manhã, ouvi o seguinte dizer (ou é uma piada?):
um algoritmo ruim com um conjunto enorme de dados pode fazer melhor do que um algoritmo inteligente com dados pauce .
Aqui está minha tentativa muito curta: o aprendizado profundo pode fornecer resultados de última geração, mas nem sempre se entende o porquê , e parte do nosso trabalho de cientista permanece em explicar por que as coisas funcionam, qual é o conteúdo de um dado. etc.
O aprendizado profundo requer (enormes) bancos de dados bem marcados. Sempre que você faz trabalhos manuais em imagens únicas ou singulares (ou seja, sem um grande banco de dados por trás), especialmente em locais com pouca probabilidade de gerar "imagens com tags gratuitas baseadas no usuário" (no conjunto complementar do conjunto " gatos engraçados brincando e rostos ") , você pode manter o processamento de imagem tradicional por um tempo e obter lucro. Um tweet recente resume que:
(muitos) requisitos de dados rotulados (sem vars ausentes) são um disjuntor (e desnecessário) para muitos domínios
Se eles estão sendo mortos (o que duvido em um aviso de curto prazo), eles ainda não estão mortos. Portanto, qualquer habilidade adquirida no processamento de sinais, análise de imagens e visão computacional o ajudará no futuro. Isso é discutido, por exemplo, no post do blog: Esquecemos a geometria na visão computacional? de Alex Kendall:
O aprendizado profundo revolucionou a visão computacional. Hoje, não há muitos problemas em que a solução com melhor desempenho não se baseia em um modelo de aprendizado profundo de ponta a ponta. Em particular, as redes neurais convolucionais são populares, pois tendem a funcionar razoavelmente bem. No entanto, esses modelos são em grande parte grandes caixas-pretas. Há muitas coisas que não entendemos sobre elas.
Um exemplo concreto pode ser o seguinte: algumas imagens muito escuras (por exemplo, vigilância) do mesmo local, que precisam avaliar se uma delas contém uma alteração específica que deve ser detectada, é potencialmente uma questão de processamento de imagem tradicional, mais do que Deep Learning (a partir de hoje).
Por outro lado, o sucesso do Deep Learning em larga escala, pode levar a uma classificação incorreta de um pequeno conjunto de dados, o que pode ser inofensivo "em média" para alguns aplicativos. Duas imagens que diferem apenas ligeiramente do olho humano podem ser classificadas de maneira diferente via DL. Ou imagens aleatórias podem ser definidas para uma classe específica. Veja, por exemplo, redes neurais profundas são facilmente enganadas: previsões de alta confiança para imagens irreconhecíveis (Nguyen A, Yosinski J, Clune J. Proc. Visão Computacional e Reconhecimento de Padrões 2015), ou o Deep Learning tem falhas profundas? , em negativos contraditórios:
A rede pode classificar incorretamente uma imagem depois que os pesquisadores aplicaram uma certa perturbação imperceptível. As perturbações são encontradas ajustando os valores de pixel para maximizar o erro de previsão.
Com todo o respeito ao "Deep Learning", pense em "produção em massa que responda a um comportamento registrado, conhecido, com validade em massa ou esperado" versus "peça de artesanato singular". Nenhum é melhor (ainda) em uma única escala de índice. Ambos podem ter que coexistir por um tempo.
No entanto, o aprendizado profundo invade muitas áreas novas, como descrito nas referências abaixo.
Felizmente, algumas pessoas estão tentando encontrar uma lógica matemática por trás do aprendizado profundo, um exemplo das quais são redes ou transformações de dispersão propostas por Stéphane Mallat e co-autores, consulte o site do ENS para dispersão . Análise harmônica e operadores não lineares, funções de Lipschitz, invariância de translação / rotação, melhor para o processamento médio de sinais. Veja, por exemplo, Noções básicas sobre redes convolucionais profundas .