Estatísticas e Big Data neural-networks

2

Rede Neural: Por que não consigo me ajustar demais?

Eu tenho uma rede neural (camada única feed-forward) com a qual tento prever uma variável relacionada ao ambiente a partir de duas variáveis financeiras (regressão). Eu uso a função "train" do pacote de intercalação. Eu uso o nnet()algoritmo no pacote de sinal de intercalação. Eu tenho dois preditores contínuos e …

8 r neural-networks overfitting caret

2

Épocas no significado de keras? [fechadas]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 2 anos . O que isto significa? Epoch 1/300 7200/7200 [==============================] - 0s - loss: 3.3616 - acc: …

8 neural-networks tensorflow keras

2

Compreendendo a parada precoce em redes neurais e suas implicações ao usar a validação cruzada

Estou um pouco preocupado e confuso com a ideia de como a técnica de parada precoce é definida. Se você der uma olhada na Wikipedia , ela será definida da seguinte forma: Divida os dados de treinamento em um conjunto de treinamento e um conjunto de validação, por exemplo, na …

8 machine-learning neural-networks cross-validation hyperparameter

2

Qual é a relação da função objetivo de amostragem negativa (NS) com a função objetivo original no word2vec?

Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de: Joriginal=−∑j=0,j≠m2mu⊤c−m+jvc+2mlog(∑k=1|V|exp(u⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) para: JNS1=−logσ(u⊤c−m+jvc)−∑k=1Klogσ(−u⊤kvc)JNS1=−logσ(uc−m+j⊤vc)−∑k=1Klogσ(−uk⊤vc)J_{NS1} = -log \sigma( u^\top_{c-m+j} v_c ) - \sum^{K}_{k=1} log \sigma( …

8 neural-networks deep-learning natural-language word2vec word-embeddings

2

Derivada do Softmax em relação aos pesos

Eu sou novo no aprendizado profundo e estou tentando calcular a derivada da seguinte função em relação à matriz :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Usando a regra do quociente, recebo: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0 …

8 machine-learning self-study neural-networks derivative softmax

3

Computando a atualização do gradiente de ator no algoritmo DDPG (Deep Deterministic Policy Gradient)

Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), Onde θθ\theta representa os parâmetros da rede de atores, μμ\mu representa a rede de atores, QQQ representa …

8 machine-learning neural-networks deep-learning reinforcement-learning

2

Por que não consigo usar o conjunto de testes como conjunto de validação

Encontrei em algum lugar que o conjunto de testes não deve ser usado como um conjunto de validação. Por quê? O conjunto de validação é acionado quando os parâmetros do modelo são fixados e o aprendizado ocorre apenas através do backprop no lote de treinamento. Então, por que não posso …

8 machine-learning neural-networks cross-validation deep-learning

1

Redes neurais versus modelagem de equações estruturais Qual é a diferença?

Estou estudando sobre redes neurais artificiais (RNA) pela primeira vez e estou impressionado com a forma como os conceitos de redes neurais parecem ser semelhantes à modelagem de equações estruturais (SEM). Por exemplo, nós de entrada na RNA me lembram variáveis manifestas no SEM Nós ocultos na RNA lembram variáveis …

8 machine-learning neural-networks sem

2

Por que o decodificador do autoencoder geralmente é a arquitetura reversa como o codificador?

Toda arquitetura de autoencoder que eu vi tem uma arquitetura semelhante, principalmente porque o decodificador é exatamente o inverso do codificador. Se o objetivo do autoencodificador é o aprendizado de recursos de baixa dimensão, por que o decodificador não é simples? Um exemplo seria uma transformação linear onde é uma …

7 neural-networks dimensionality-reduction autoencoders

4

Quais são as atuais redes neurais convolucionais de ponta?

Estou interessado em entender qual arquitetura de rede neural é atualmente o estado da arte (às vezes abreviado como "SOTA") com relação às tarefas de classificação de imagem padrão, como MNIST, STLN-10 e CIFAR. Isso é desafiador porque novos resultados são publicados com frequência e pode ser difícil acompanhar. Existe …

7 neural-networks references conv-neural-network

3

Quando normalizar os dados ao usar dois conjuntos de dados da mesma distribuição?

Suponha que você tenha dois conjuntos de dados D1 e D2. Ambos são amostrados da mesma distribuição subjacente X. Quero usá-los para treinar uma rede neural. Os recursos são todos os números inteiros não assinados no intervalo [0; 2 ^ 64]. Devido ao fato de os recursos estarem em escalas …

7 neural-networks dataset normalization z-score

2

Os Autoencoders preservam distâncias?

Com base no meu entendimento, os auto-codificadores são usados para encontrar uma representação compacta dos recursos de entrada que carregam as informações subjacentes essenciais. Existe alguma relação entre as distâncias L2 no espaço de entrada original e o espaço reduzido (compacto)? Caso contrário, posso treinar a rede de modo que …

7 neural-networks dimensionality-reduction distance autoencoders

2

Mais classes de objetos aumentam ou diminuem a precisão da detecção de objetos

Suponha que você tenha um conjunto de dados de detecção de objetos (por exemplo, MS COCO ou Pascal VOC) com N imagens em que k classes de objetos foram rotuladas. Você treina uma rede neural (por exemplo, Faster-RCNN ou YOLO) e mede a precisão (por exemplo, IOU@0.5). Agora você introduz …

7 machine-learning neural-networks object-detection labeling

2

A transformação de recursos (poder, log, Box-Cox) é necessária na aprendizagem profunda?

Li que é benéfico aplicar certas transformações de recursos comuns nos conjuntos de dados antes que eles atinjam os modelos de aprendizado de máquina. Eles são baseados nas distribuições dos recursos do conjunto de dados; por exemplo, aplicar transformações de log a recursos normalmente distribuídos inclinados. Alguns exemplos aqui . …

7 neural-networks deep-learning data-transformation

1

Detecção de objetos de uma só vez com o Deep Learning

Nos últimos anos, o campo de detecção de objetos sofreu um grande avanço após a popularização do paradigma Deep Learning. Abordagens como YOLO, SSD ou FasterRCNN mantêm o estado da arte na tarefa geral de detecção de objetos [ 1 ]. No entanto, no cenário específico do aplicativo em que …

7 neural-networks deep-learning image-processing computer-vision object-detection

Perguntas com a marcação «neural-networks»