A atual tendência de aprendizado de máquina é interpretada por alguns novos nas disciplinas da IA como significando que MLPs, CNNs e RNNs podem exibir inteligência humana. É verdade que essas estruturas ortogonais derivadas do projeto perceptron original podem categorizar, extrair recursos, adaptar-se em tempo real e aprender a reconhecer objetos em imagens ou palavras na fala.
Combinações dessas redes artificiais podem imitar padrões de design e controle. Até a aproximação de funções mais complexas, como cognição ou diálogo, é considerada teoricamente possível em redes com estado, como as RNNs, porque elas são completas de Turing.
Essa questão gira em torno de saber se a impressão criada pelo sucesso de redes profundas com base em extensões puramente ortogonais do design original do perceptron está limitando a criatividade.
Quão realista é assumir que o ajuste das dimensões de matrizes e matrizes, que são convenientes na maioria das linguagens de programação, levará de redes artificiais a cérebros artificiais?
A profundidade da rede necessária para fazer um computador aprender a coreografar uma dança ou desenvolver uma prova complexa provavelmente não convergiria, mesmo que cem racks de hardware dedicado e avançado funcionassem por um ano. Mínimos locais na superfície de erro e saturação de gradiente afetariam as corridas, tornando a convergência irrealista.
A principal razão pela qual a ortogonalidade é encontrada no design de MLP, CNN e RNN é porque os loops usados para iteração de matriz são compilados para testes simples e saltos para trás na linguagem de máquina. E esse fato se aplica a todas as linguagens de nível superior, desde FORTRAN e C até Java e Python.
A estrutura de dados mais natural no nível da máquina para loops triviais são matrizes. Os loops de aninhamento fornecem o mesmo alinhamento trivial direto com matrizes multidimensionais. Eles mapeiam as estruturas matemáticas de vetores, matrizes, cubos, hipercubos e sua generalização: tensores.
Embora as bibliotecas baseadas em gráficos e os bancos de dados orientados a objetos existam há décadas e o uso da recursão para atravessar hierarquias seja abordado na maioria dos currículos de engenharia de software, dois fatos impedem a tendência geral de afastar topologias menos restritas.
- A teoria dos grafos (vértices conectados por arestas) não é consistentemente incluída nos currículos de ciências da computação.
- Muitas pessoas que escrevem programas trabalharam apenas com estruturas construídas em seus idiomas favoritos, como matrizes, listas ordenadas, conjuntos e mapas.
A estrutura do cérebro não está orientada para topologias cartesianas 1 como vetores ou matrizes. As redes neurais na biologia não são ortogonais. Nem sua orientação física nem as representações gráficas de seus caminhos de sinal são quadradas. A estrutura do cérebro não é representada naturalmente em ângulos de noventa graus.
Os circuitos neurais reais não podem ser representados diretamente nas formas cartesianas. Nem eles se encaixam diretamente em hierarquias recursivas. Isso ocorre devido a quatro características distintas.
- O paralelismo na mente é por tendência, não por iteração - Os neurônios no que aparecem como estruturas paralelas não são idênticos e são criados com exceções ao padrão aparente.
- Ciclos aparecem na estrutura - Grupos de neurônios nem todos apontam em uma única direção. Existem ciclos no gráfico direcionado que representa muitas redes. Existem muitos circuitos nos quais um ancestral na direção do sinal também é um descendente. É como o feedback estabilizador em circuitos analógicos.
- As estruturas neurais que não são paralelas também nem sempre são ortogonais. Se um ângulo de noventa graus se formar, é por acaso, não um projeto.
- A estrutura neural não é estática - a neuroplasticidade é o fenômeno observado onde um axônio ou dendrito pode crescer em novas direções que não estão restritas a noventa graus. A apoptose celular pode eliminar um neurônio. Um novo neurônio pode se formar.
Não há quase nada no cérebro que se encaixe naturalmente em uma estrutura de circuito digital ortogonal como um vetor, matriz ou cubo de registros ou endereços de memória contíguos. Sua representação em silício e as demandas de recursos que eles colocam em linguagens de programação de nível superior são radicalmente diferentes das matrizes e loops multidimensionais da álgebra básica e da geometria analítica.
O cérebro é construído com estruturas topológicas 1 únicas que realizam propagação sofisticada de sinais. Eles são livres de sistemas de coordenadas cartesianas ou grades. O feedback é aninhado e não ortogonal. Eles têm equilíbrios químicos e elétricos que formam equilíbrios de pensamento, motivação e atenção superiores e inferiores.
Isso é topológico 1 sofisticação necessária ou apenas um produto biológico de como o DNA constrói um vetor, matriz, cubo ou hipercubo?
À medida que a pesquisa sobre o cérebro progride, torna-se cada vez mais improvável que as estruturas cerebrais possam ser eficientemente transformadas em vias de sinal ortogonais. É improvável que as estruturas de sinal necessárias sejam matrizes de tipo homogêneo. É até possível que estruturas de processamento estocástico ou caótico possuam uma vantagem para o desenvolvimento da IA.
Topologicamente do cérebro 1 recursos sofisticados pode ser um catalisador ou mesmo uma necessidade para o surgimento de formas humanas de pensamento. Quando nos propomos a alcançar convergência em centenas de camadas de perceptrons, às vezes podemos fazê-lo funcionar. De alguma forma, estamos presos às limitações conceituais que começaram com Descartes?
Podemos escapar dessas limitações simplesmente abandonando a conveniência de programação de estruturas ortogonais? Vários pesquisadores estão trabalhando para descobrir novas orientações no design de chips VLSI. Pode ser necessário desenvolver novos tipos de linguagens de programação ou novos recursos para as existentes, para facilitar a descrição da função mental no código.
Alguns sugeriram que novas formas de matemática sejam indicadas, mas um arcabouço teórico significativo já foi criado por Leonhard Euler (gráficos), Gustav Kirchhoff (redes), Bernhard Riemann (variedades), Henri Poincaré (topologia) e Andrey Markov (gráficos de ação). ), Richard Hook Richens (lingüística computacional) e outros para apoiar um progresso significativo da IA antes que a matemática precise ser estendida.
O próximo passo no desenvolvimento da IA é adotar a sofisticação topológica?
Notas de rodapé
[1] Esta pergunta usa apenas a palavra topologia para se referir à definição matemática de longa data da palavra. Embora o termo tenha sido distorcido por algum jargão emergente, nenhuma dessas distorções é pretendida nesta questão. As distorções incluem (a) chamar uma matriz de larguras de camadas da topologia da rede e (b) chamar a textura de uma superfície como topoLOGy quando o termo correto seria topoGRAPHy. Tais distorções confundem a comunicação de idéias como as descritas nesta pergunta, que não estão relacionadas a (a) ou (b).
Referências
Cliques de neurônios ligados a cavidades fornecem um elo perdido entre as fronteiras de estrutura e função na neurociência computacional, 12 de junho de 2017, Michael W. Reimann et. al. https://www.frontiersin.org/articles/10.3389/fncom.2017.00048/full , https://doi.org/10.3389/fncom.2017.00048
Um fuzzy neural auto-construtivo on-line, rede de inferência e suas aplicações, Chia-Feng Juang e Chin-Teng Lin, transações IEEE em sistemas difusos, v6, n1, 1998, https://ir.nctu.edu.tw/ bitstream / 11536/32809/1 / 000072774800002.pdf
Redes Neurais de Sequência de Gated Gated Yujia Li e Richard Zemel, artigo da conferência ICLR, 2016, https://arxiv.org/pdf/1511.05493.pdf
Construindo Máquinas que Aprendem e Pensam Como Pessoas, Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum e Samuel J. Gershman, Ciências do Comportamento e do Cérebro, 2016, https://arxiv.org/pdf/1604.00289.pdf
Aprendendo a compor redes neurais para responder perguntas, Jacob Andreas, Marcus Rohrbach, Trevor Darrell e Dan Klein, UC Berkeley, 2016, https://arxiv.org/pdf/1601.01705.pdf
Aprendendo várias camadas de representação Geoffrey E. Hinton, Departamento de Ciência da Computação, Universidade de Toronto, 2007, http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf
Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, George E. Dahl, Dong Yu, Li Deng e Alex Acero, IEEE Transactions on Audio, Speach, and Language Processing 2012, https: //s3.amazonaws .com / academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expira = 1534211789 & Signature = 33QcFP0JGFeA% 2FTsqjQZ -X-line-%
Incorporando entidades e relações para aprendizagem e inferência em bases de conhecimento, Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 e Li Deng2, documento da conferência ICLR, 2015, https://arxiv.org/pdf/1412.6575.pdf
Um algoritmo de aprendizado rápido para redes de crenças profundas, Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (comunicado por Yann Le Cun), Neural Computation 18, 2006, http://axon.cs.byu.edu/Dan/778 / papers / Deep% 20Networks / hinton1 * .pdf
FINN: Uma estrutura para inferência rápida e escalonável de redes neurais binárias Yaman Umuroglu, et al, 2016, https://arxiv.org/pdf/1612.07119.pdf
Do aprendizado de máquina ao raciocínio de máquina, Léon Bottou, 8/2/2011, https://arxiv.org/pdf/1102.1808.pdf
Progresso na pesquisa do cérebro, neurociência: do molecular ao cognitivo, capítulo 15: Transmissão química no cérebro: regulação homeostática e suas implicações funcionais, Floyd E. Bloom (editor), 1994, https://doi.org/10.1016/ S0079-6123 (08) 60776-1
Neural Turing Machine (apresentação de slides), Autor: Alex Graves, Greg Wayne, Ivo Danihelka, Apresentado por: Tinghui Wang (Steve), https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf
Máquinas de Turing Neural (papel), Alex Graves, Greg Wayne, Ivo Danihelka, 2014, https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf
Aprendizado por Reforço, Máquinas de Turing Neural, Wojciech Zaremba, Ilya Sutskever, documento da conferência ICLR, 2016, https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_ampaign
Máquina de Turing Neural Dinâmica com Esquemas de Endereçamento Contínuo e Discreto, Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1, 2017, https://arxiv.org/pdf/1607.00036.pdf
Aprendizado profundo, Yann LeCun, Yoshua Bengio3 e Geoffrey Hinton, Nature, vol 521, 2015, https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf
Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, transações IEEE em processamento de áudio, discurso e linguagem, vol 20, no 1 George E. Dahl, Dong Yu, Li Deng e Alex Acero, 2012, https : //www.cs.toronto.edu/~gdahl/papers/DBN4LVCSR-TransASLP.pdf
A topologia do clique revela estrutura geométrica intrínseca nas correlações neurais, Chad Giusti, Eva Pastalkova, Carina Curto, Vladimir Itskov, William Bialek PNAS, 2015, https://doi.org/10.1073/pnas.1506407112 , http: //www.pnas. org / content / 112/44 / 13455.full? utm_content = bufferb00a4 & utm_medium = social & utm_source = twitter.com & utm_campaign = buffer
UCL, London Neurological Newsletter, julho de 2018 Barbara Kramarz (editora), http://www.ucl.ac.uk/functional-gene-annotation/neurological/newsletter/Issue17