Perguntas com a marcação «gradient-descent»

A descida de gradiente é um algoritmo de otimização iterativa de primeira ordem. Para encontrar um mínimo local de uma função usando a descida do gradiente, é necessário executar etapas proporcionais ao negativo do gradiente (ou do gradiente aproximado) da função no ponto atual. Para descida de gradiente estocástico, há também a tag [sgd].




1
Como a descida estocástica do gradiente poderia economizar tempo em comparação com a descida padrão do gradiente?
A Descida de gradiente padrão calcularia o gradiente para todo o conjunto de dados de treinamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para um número predefinido de épocas, primeiro calculamos o vetor de gradiente weights_grad da função de perda para …

1
Esclarecimento sobre a implementação da regra de Perceptron vs. descida de gradiente vs. descida estocástica de gradiente
Eu experimentei um pouco com diferentes implementações do Perceptron e quero ter certeza de que entendi as "iterações" corretamente. Regra original do perceptron de Rosenblatt Tanto quanto eu entendo, no algoritmo clássico de Rosenblatt perceptron, os pesos são atualizados simultaneamente após cada exemplo de treinamento via Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + …



1
Por que não usamos taxas de aprendizado não constantes para o gradiente decente para outras coisas que não as redes neurais?
A literatura de aprendizado profundo está cheia de truques inteligentes com o uso de taxas de aprendizado não constantes na descida do gradiente. Coisas como decaimento exponencial, RMSprop, Adagrad etc. são fáceis de implementar e estão disponíveis em todos os pacotes de aprendizado profundo, mas parecem inexistentes fora das redes …

4
Como ele pode ser preso em um ponto de sela?
Atualmente, estou um pouco confuso com a forma como a descida do gradiente de mini-lote pode ser presa em um ponto de sela. A solução pode ser muito trivial que eu não entendo. Você começa uma amostra nova todas as épocas, e calcula um novo erro com base em um …




1
Escolhendo um tamanho de minibatch apropriado para descida do gradiente estocástico (SGD)
Existe alguma literatura que examine a escolha do tamanho de minibatch ao realizar a descida do gradiente estocástico? Na minha experiência, parece ser uma escolha empírica, geralmente encontrada por meio de validação cruzada ou usando regras práticas variadas. É uma boa ideia aumentar lentamente o tamanho do minibatch à medida …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.