Perguntas com a marcação «deep-learning»

uma nova área de pesquisa de aprendizado de máquina relacionada às tecnologias usadas para aprender representações hierárquicas de dados, feitas principalmente com redes neurais profundas (ou seja, redes com duas ou mais camadas ocultas), mas também com algum tipo de modelo gráfico probabilístico.


6
Quando usar GRU sobre LSTM?
A principal diferença entre uma GRU e um LSTM é que uma GRU possui duas portas ( redefinir e atualizar portas), enquanto uma LSTM possui três portas (portas de entrada , saída e esquecimento ). Por que usamos GRU quando claramente temos mais controle sobre a rede através do modelo …





2
Quando usar a inicialização normal (He ou Glorot) sobre init uniforme? E quais são seus efeitos com a Normalização em lote?
Eu sabia que a Residual Network (ResNet) tornou popular a inicialização normal de He. No ResNet, a inicialização normal é usada , enquanto a primeira camada usa a inicialização uniforme. Examinei os artigos da ResNet e os artigos "Investigando profundamente os retificadores" (artigo de inicialização He), mas não encontrei nenhuma …


3
Número de parâmetros em um modelo LSTM
Quantos parâmetros possui um único LSTM empilhado? O número de parâmetros impõe um limite inferior ao número de exemplos de treinamento necessários e também influencia o tempo de treinamento. Portanto, conhecer o número de parâmetros é útil para treinar modelos usando LSTMs.






6
Explicação da perda de entropia cruzada
Suponha que eu crie um NN para classificação. A última camada é uma camada densa com ativação softmax. Eu tenho cinco classes diferentes para classificar. Suponha que, para um único exemplo de treinamento, true labelseja [1 0 0 0 0]enquanto estiverem as previsões [0.1 0.5 0.1 0.1 0.2]. Como eu …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.