Geometria e IA
Matrizes, cubos, camadas, pilhas e hierarquias são o que poderíamos chamar com precisão de topologias . Considere a topologia, neste contexto, o projeto geométrico de nível superior de um sistema de aprendizagem.
À medida que a complexidade aumenta, geralmente é útil representar essas topologias como estruturas de gráfico direcionadas. Os diagramas de estado e o trabalho de Markov sobre a teoria dos jogos são dois lugares onde gráficos direcionados são comumente usados. Os gráficos direcionados têm vértices (geralmente visualizados como formas fechadas) e arestas frequentemente visualizados como setas conectando as formas.
Também podemos representar os GANs como um gráfico direcionado, onde a saída de cada rede impulsiona o treinamento da outra de maneira adversa. Os GANs se parecem com uma faixa de Möbius topologicamente.
Não podemos descobrir novos projetos e arquiteturas sem entender não apenas a matemática de convergir para uma solução ideal ou rastrear uma, mas também topologias de conexões de rede que podem suportar essa convergência. É como primeiro desenvolver um processador enquanto imagina o que um sistema operacional precisaria antes de escrever o sistema operacional.
Para vislumbrar quais topologias ainda NÃO consideramos, vamos primeiro ver quais foram.
Etapa 1 - Extrusão em uma segunda dimensão
Nos anos 80, o sucesso foi alcançado com a extensão do projeto perceptron original. Os pesquisadores adicionaram uma segunda dimensão para criar uma rede neural de várias camadas. A convergência razoável foi alcançada através da propagação retroativa do gradiente de uma função de erro através dos gradientes das funções de ativação atenuadas pelas taxas de aprendizado e atenuadas com outros meta-parâmetros.
Etapa 2 - Adicionando dimensões ao sinal de entrada discreta
Vemos o surgimento de redes convolucionais com base nas técnicas de convolução de imagem ajustadas manualmente existentes, introduzindo dimensões na entrada da rede: posição vertical, componentes de cores e quadro. Essa última dimensão é crítica para CGI, substituição de faces e outras técnicas morfológicas na produção cinematográfica contemporânea. Sem ele, temos geração de imagens, categorização e remoção de ruído.
Etapa três - pilhas de redes
Vimos pilhas de redes neurais surgirem no final dos anos 90, onde o treinamento de uma rede é supervisionado por outra. Esta é a introdução de camadas conceituais, nem no sentido de camadas seqüenciais de neurônios nem no sentido de camadas de cor em uma imagem. Esse tipo de camada também não é recursiva. É mais como o mundo natural, onde uma estrutura é um órgão dentro de outro tipo completamente diferente de estrutura.
Etapa quatro - hierarquias de redes
Vemos hierarquias de redes neurais aparecendo com frequência na pesquisa que surgiu nos anos 2000 e início de 2010 (Laplaciano e outros), que continua a interação entre as redes neurais e continua a analogia do cérebro dos mamíferos. Agora vemos a meta-estrutura, onde redes inteiras se tornam vértices em um gráfico direcionado que representa uma topologia.
Etapa 5% mdash; Partidas da orientação cartesiana
Arranjos de repetição sistemática não cartesiana de células e conexões entre elas começaram a surgir na literatura. Por exemplo, Redes Convolucionais Equivalentes de Gauge e a CNN Icosaédrica (Taco S. Cohen, Maurice Weiler, Berkay Kicanaoglu, Max Welling, 2019) examina o uso de um arranjo baseado em um icosaedro regular convexo.
Resumindo
Camadas têm funções de ativação com valor ordinário para vértices e matrizes de atenuação mapeadas para um conjunto exaustivo de arestas direcionadas entre camadas adjacentes [1]. As camadas de convolução de imagem geralmente estão em arranjos bidimensionais de vértices com cubos de atenuação mapeados para um conjunto abreviado de arestas direcionadas entre as camadas adjacentes [2]. As pilhas possuem redes em camadas inteiras como vértices em um gráfico meta-direcionado, e esses meta-vértices são conectados em uma sequência, sendo que cada aresta é um meta-parâmetro de treinamento, um sinal de reforço (feedback em tempo real) ou algum outro controle de aprendizado . As hierarquias de redes refletem a noção de que vários controles podem ser agregados e direcionar o aprendizado de nível inferior, ou o caso inverso em que vários elementos de aprendizado podem ser controlados por uma rede de supervisores de nível superior.
Análise da Tendência em Topologias de Aprendizagem
Podemos analisar tendências na arquitetura de aprendizado de máquina. Temos três tendências topológicas.
Profundidade na dimensão de causalidade - Camadas para o processamento do sinal em que a saída de uma camada de ativações é alimentada através de uma matriz de parâmetros atenuantes (pesos) para a entrada da próxima camada. À medida que controles maiores são estabelecidos, apenas começando com a descida básica do gradiente na propatagão das costas, maior profundidade pode ser alcançada.
Dimensionalidade do sinal de entrada - da entrada escalar aos hipercubos (o vídeo possui horizontal, vertical, profundidade de cor incluindo transparência e quadro - Observe que este não é o mesmo que o número de entradas no sentido do perceptron.
Desenvolvimento topológico - Os dois acima são de natureza cartesiana. As dimensões são adicionadas perpendicularmente à dimensão existente. Como as redes são conectadas em hierarquias (como nas hierarquias do Laplaciano) e Möbius se descascam como círculos (como nos GANs), as tendências são topográficas e são melhor representadas por gráficos direcionados onde os vértices não são neurônios, mas redes menores.
Quais topologias estão faltando?
Esta seção expande o significado da pergunta do título.
- Existe alguma razão pela qual vários meta-vértices, cada um representando uma rede neural, podem ser organizados de modo que vários meta-vértices de supervisor possam, em conjunto, supervisionar vários meta-vértices de funcionários?
- Por que a propagação traseira de um sinal de erro é o único equivalente não linear de feedback negativo?
- Não é possível empregar a colaboração entre meta-vértices em vez de supervisão, onde existem duas arestas recíprocas representando controles?
- Como as redes neurais são empregadas principalmente para o aprendizado de fenômenos não-lineares, por que proíbe outros tipos de caminhos fechados no design das redes ou em sua interconexão?
- Existe alguma razão pela qual o som não pode ser adicionado à imagem para que os videoclipes possam ser categorizados automaticamente? Se for esse o caso, um roteiro é uma possível extração de recursos de um filme e uma arquitetura antagônica pode ser usada para gerar roteiros e produzir os filmes sem o sistema de estúdio de cinema? Como seria essa topologia como um gráfico direcionado?
- Embora as células dispostas ortogonalmente possam simular um arranjo regular arbitrário de vértices e arestas não ortogonais, é eficiente fazê-lo em visão computacional, onde é comum a inclinação da câmera além de mais ou menos 90 graus?
- É eficiente organizar células individuais em redes ou redes de células em sistemas de IA ortogonalmente em sistemas de aprendizagem que visam a compreensão e montagem da linguagem natural ou cognição artificial?
Notas
As células artificiais nos MLPs usam funções de transferência aritmética de ponto fixo ou flutuante, em vez de transmissões de pulsos eletroquímicos com base no limiar baseado em amplitude e proximidade. Não são simulações realistas de neurônios, portanto, chamar os vértices de neurônios seria um nome impróprio para esse tipo de análise.
A correlação dos recursos da imagem e as alterações relativas entre os pixels muito próximas é muito maior do que a dos pixels distantes.