Perguntas com a marcação «neural-networks»

Redes neurais artificiais (RNAs) são uma ampla classe de modelos computacionais vagamente baseados em redes neurais biológicas. Eles abrangem NNs de feedforward (incluindo NNs "profundos"), NNs convolucionais, NNs recorrentes etc.

2
Rede Neural: Por que não consigo me ajustar demais?
Eu tenho uma rede neural (camada única feed-forward) com a qual tento prever uma variável relacionada ao ambiente a partir de duas variáveis ​​financeiras (regressão). Eu uso a função "train" do pacote de intercalação. Eu uso o nnet()algoritmo no pacote de sinal de intercalação. Eu tenho dois preditores contínuos e …

2
Épocas no significado de keras? [fechadas]
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 2 anos . O que isto significa? Epoch 1/300 7200/7200 [==============================] - 0s - loss: 3.3616 - acc: …


2
Qual é a relação da função objetivo de amostragem negativa (NS) com a função objetivo original no word2vec?
Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de: Joriginal=−∑j=0,j≠m2mu⊤c−m+jvc+2mlog(∑k=1|V|exp(u⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) para: JNS1=−logσ(u⊤c−m+jvc)−∑k=1Klogσ(−u⊤kvc)JNS1=−logσ(uc−m+j⊤vc)−∑k=1Klogσ(−uk⊤vc)J_{NS1} = -log \sigma( u^\top_{c-m+j} v_c ) - \sum^{K}_{k=1} log \sigma( …

2
Derivada do Softmax em relação aos pesos
Eu sou novo no aprendizado profundo e estou tentando calcular a derivada da seguinte função em relação à matriz :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Usando a regra do quociente, recebo: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0 …

3
Computando a atualização do gradiente de ator no algoritmo DDPG (Deep Deterministic Policy Gradient)
Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), Onde θθ\theta representa os parâmetros da rede de atores, μμ\mu representa a rede de atores, QQQ representa …








2
A transformação de recursos (poder, log, Box-Cox) é necessária na aprendizagem profunda?
Li que é benéfico aplicar certas transformações de recursos comuns nos conjuntos de dados antes que eles atinjam os modelos de aprendizado de máquina. Eles são baseados nas distribuições dos recursos do conjunto de dados; por exemplo, aplicar transformações de log a recursos normalmente distribuídos inclinados. Alguns exemplos aqui . …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.