Perguntas com a marcação «neural-networks»

Redes neurais artificiais (RNAs) são uma ampla classe de modelos computacionais vagamente baseados em redes neurais biológicas. Eles abrangem NNs de feedforward (incluindo NNs "profundos"), NNs convolucionais, NNs recorrentes etc.

3
Camada Softmax em uma rede neural
Estou tentando adicionar uma camada softmax a uma rede neural treinada com retropropagação, então estou tentando calcular seu gradiente. A saída do softmax é hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} , ondejjjé o número de neurónios de saída. Se eu der, então eu recebo ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Semelhante à regressão logística. No entanto, isso está …

2
O que é maxout na rede neural?
Alguém pode explicar o que as unidades maxout em uma rede neural fazem? Como eles funcionam e como eles diferem das unidades convencionais? Tentei ler o artigo "Maxout Network" de 2013 de Goodfellow et al. (do grupo do professor Yoshua Bengio), mas não entendi direito.





7
Normalização e padronização de dados em redes neurais
Estou tentando prever o resultado de um sistema complexo usando redes neurais (RNAs). Os valores do resultado (dependentes) variam entre 0 e 10.000. As diferentes variáveis ​​de entrada têm intervalos diferentes. Todas as variáveis ​​têm distribuições aproximadamente normais. Considero diferentes opções para dimensionar os dados antes do treinamento. Uma opção …






3
Aprendizado de máquina: devo usar uma perda de entropia cruzada categórica ou de entropia cruzada binária para previsões binárias?
Antes de tudo, percebi que, se preciso realizar previsões binárias, tenho que criar pelo menos duas classes executando uma codificação one-hot. Isso está correto? No entanto, a entropia cruzada binária é apenas para previsões com apenas uma classe? Se eu usasse uma perda de entropia cruzada categórica, que normalmente é …

5
A função de custo da rede neural não é convexa?
A função de custo da rede neural é J(W,b)J(W,b)J(W,b) e é reivindicada como não convexa . Não entendo muito bem por que é assim, pois, como vejo, é bastante semelhante à função de custo da regressão logística, certo? Se não for convexa, a derivada de 2ª ordem ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} …

4
Como o LSTM evita o problema de gradiente de fuga?
O LSTM foi inventado especificamente para evitar o problema do gradiente de fuga. Supõe-se que isso seja feito com o Constant Error Carousel (CEC), que no diagrama abaixo (de Greff et al. ) Corresponde ao loop em torno da célula . (fonte: deeplearning4j.org ) E eu entendo que essa parte …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.