O assunto da minha dissertação de doutorado foi revelar as propriedades da caixa preta de redes neurais, especificamente redes neurais de alimentação direta, com uma ou duas camadas ocultas.
Aceitarei o desafio de explicar a todos o que significam os termos de ponderação e viés, em uma rede neural de feed-forward de uma camada. Duas perspectivas diferentes serão abordadas: uma paramétrica e uma probabilística.
A seguir, presumo que os valores de entrada fornecidos para cada neurônio de entrada tenham sido normalizados no intervalo (0,1), por escala linear ( ), onde os dois os coeficientes e são escolhidos por variável de entrada, de modo que . Eu faço uma distinção entre variáveis numeradas reais e variáveis enumeradas (com uma variável booleana como uma variável enumerada de caso especial):xinput=α⋅x+βαβxinput∈(0,1)
- Uma variável com número real é fornecida como um número decimal entre e , após o dimensionamento linear.01
- Uma variável enumerada, tirar os dias da semana (segunda-feira, terça-feira, etc.) é representada por nós de entrada, com , sendo o número de resultados aceitáveis, ou seja, para o número de dias em uma semana.vv7
Essa representação dos dados de entrada é necessária para poder interpretar o tamanho (valor absoluto) dos pesos na camada de entrada.
Significado paramétrico:
- quanto maior o valor absoluto do peso entre um neurônio de entrada e um neurônio oculto, mais importante é a variável, para o 'disparo' desse nó oculto específico. Pesos próximos a
indicam que um valor de entrada é tão bom quanto irrelevante. 0
- o peso de um nó oculto para um nó de saída indica que a amplificação ponderada das variáveis de entrada que são, em sentido absoluto, mais amplificadas por esse neurônio oculto, promove ou amortece o nó de saída específico. O sinal do peso indica promoção (positiva) ou inibição (negativa).
- a terceira parte não representada explicitamente nos parâmetros da rede neural é a distribuição multivariada das variáveis de entrada. Ou seja, com que frequência ocorre que o valor é fornecido para introduzir o nó - com o peso realmente grande para o nó oculto ?132
- um termo tendencioso é apenas uma constante de conversão que altera a média de um neurônio oculto (ou de saída). Ele age como a mudança , apresentada acima.β
Raciocínio a partir de um neurônio de saída : quais neurônios ocultos têm os maiores valores absolutos de peso, em suas conexões com os neurônios de saída? Com que frequência a ativação de cada nó oculto se aproxima de (assumindo funções de ativação sigmóide). Estou falando de frequências, medidas ao longo do conjunto de treinamento. Para ser mais preciso: o que representa a frequência com que os nós escondidos e , com grandes pesos para as variáveis de entrada e , que estes nós escondidos e encontram-se perto de1iltsil1? Cada nó oculto propaga uma média ponderada de seus valores de entrada, por definição. Quais variáveis de entrada cada nó oculto promove principalmente - ou inibe? Além disso, explica muito, a diferença absoluta de pesos entre os pesos que se espalham do nó oculto para os dois nós de saída e .Δj,k=∣wi,j−wi,k∣ijk
Os nós ocultos mais importantes são para um nó de saída (falando em frequências, sobre o conjunto de treinamento), quais 'pesos de entrada vezes as frequências de entrada' são mais importantes? Em seguida, concluímos a importância dos parâmetros das redes neurais feed-forward.
Interpretação probabilística:
A perspectiva probabilística significa considerar uma rede neural de classificação como um classificador de Bayes (o classificador ideal, com a menor taxa de erro teoricamente definida). Quais variáveis de entrada influenciam o resultado da rede neural - e com que frequência? Considere isso como uma análise de sensibilidade probabilística. Com que frequência a variação de uma variável de entrada leva a uma classificação diferente? Com que frequência o neurônio de entrada tem influência potencial sobre qual resultado de classificação se torna mais provável, implicando que o neurônio de saída correspondente alcance o valor mais alto?xinput
Caso individual - padrão
Ao variar um neurônio de entrada com número real pode causar alterações na classificação mais provável, dizemos que essa variável tem influência potencial . Ao variar o resultado de uma variável enumerada (alterando o dia da semana de segunda-feira para terça-feira ou qualquer outro dia da semana ) e o resultado mais provável é alterado, então essa variável enumerada tem potencial influência no resultado da classificação.xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]
Quando agora levamos em conta a probabilidade dessa mudança, discutimos a influência esperada . Qual é a probabilidade de observar uma variável de entrada variável forma que um caso de entrada mude o resultado, dados os valores de todas as outras entradas ? A influência esperada refere-se ao valor esperado de , ou seja, . Aqui é o vetor de todos os valores de entrada, exceto da entrada . Lembre-se de que uma variável enumerada é representada por vários neurônios de entrada. Esses possíveis resultados são aqui considerados como uma variável. x i n p u t E ( x i n p u t | x - i n p u t ) x - i n p u t x i n p u txinputxinputE(xinput∣x−input)x−inputxinput
Inclinação profunda - e o significado dos parâmetros NN
Quando aplicadas à visão computacional, as redes neurais mostraram um progresso notável na última década. As redes neurais convolucionais introduzidas por LeCunn em 1989 acabaram se saindo muito bem em termos de reconhecimento de imagem. Foi relatado que eles podem superar a maioria das outras abordagens de reconhecimento baseadas em computador.
Propriedades emergentes interessantes aparecem quando redes neurais convolucionais estão sendo treinadas para o reconhecimento de objetos. A primeira camada de nós ocultos representa detectores de recursos de baixo nível, semelhantes aos operadores de espaço de escala T. Lindeberg, Detecção de recursos com seleção automática de escala, 1998 . Esses operadores de espaço de escala detectam
- linhas
- cantos,
- Junções em T
e alguns outros recursos básicos de imagem.
Ainda mais interessante é o fato de que os neurônios perceptivos nos cérebros de mamíferos parecem se assemelhar a essa maneira de trabalhar nas primeiras etapas do processamento de imagens (biológicas). Assim, com as CNNs, a comunidade científica está se aproximando do que torna a percepção humana tão fenomenal. Isso faz com que valha a pena continuar mais essa linha de pesquisa.