Estatísticas e Big Data gradient-descent

6

Por que não usar a terceira derivada para otimização numérica?

Se os hessianos são tão bons em otimização (veja, por exemplo, o método de Newton ), por que parar aí? Vamos usar o terceiro, quarto, quinto e sexto derivados? Por que não?

29 optimization gradient-descent hessian

4

Como é derivada a função de custo da Regressão Logística

Estou fazendo o curso de Machine Learning Stanford no Coursera. No capítulo Regressão logística, a função de custo é esta: Então, é derivado aqui: Tentei obter a derivada da função de custo, mas obtive algo completamente diferente. Como é obtido o derivado? Quais são as etapas intermediárias?

29 regression logistic gradient-descent derivative

2

Qual é a diferença entre EM e Gradient Ascent?

Qual é a diferença entre os algoritmos EM (Maximização de Expectativas) e Subida de Gradiente (ou descida)? Existe alguma condição sob a qual eles são equivalentes?

28 gradient-descent expectation-maximization

6

Para problemas convexos, o gradiente na descida do gradiente estocástico (SGD) sempre aponta para o valor extremo global?

Dada uma função de custo convexa, usando o SGD para otimização, teremos um gradiente (vetor) em um determinado ponto durante o processo de otimização. Minha pergunta é, dado o ponto no convexo, o gradiente apenas aponta na direção em que a função aumenta / diminui mais rapidamente, ou o gradiente …

25 neural-networks optimization gradient-descent sgd convex

1

Como definir a condição de terminação para a descida do gradiente?

Na verdade, eu queria perguntar como posso definir a condição final para a descida do gradiente. Posso pará-lo com base no número de iterações, ou seja, considerando valores de parâmetros para, por exemplo, 100 iterações? Ou devo esperar que o diferente nos dois valores dos parâmetros 'novo' e 'antigo' seja …

24 algorithms optimization gradient-descent

3

Coordenada vs. descida de gradiente

Eu queria saber quais são os diferentes casos de uso para os dois algoritmos, descida de coordenadas e descida de gradiente . Eu sei que a descida de coordenadas tem problemas com funções não suaves, mas é usada em algoritmos populares como SVM e LASSO. Acho que a descida em …

23 optimization gradient-descent

1

Retropropagação gradiente através de conexões de salto ResNet

Estou curioso para saber como os gradientes são propagados novamente através de uma rede neural usando módulos ResNet / pular conexões. Eu já vi algumas perguntas sobre o ResNet (por exemplo, rede neural com conexões de camada de salto ), mas esta pergunta especificamente sobre a propagação de retorno de …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

Por que usar descida gradiente com redes neurais?

Ao treinar uma rede neural usando o algoritmo de retropropagação, o método de descida de gradiente é usado para determinar as atualizações de peso. Minha pergunta é: Em vez de usar o método de descida de gradiente para localizar lentamente o ponto mínimo com relação a um determinado peso, por …

22 neural-networks gradient-descent backpropagation

3

O Gradient Descent é possível para SVMs kernelizados (se sim, por que as pessoas usam a Programação Quadrática)?

Por que as pessoas usam técnicas de programação quadrática (como SMO) ao lidar com SVMs kernelizados? O que há de errado com a descida do gradiente? É impossível usar com kernels ou é muito lento (e por quê?). Aqui está um pouco mais de contexto: tentando entender um pouco melhor …

21 svm kernel-trick gradient-descent

3

Da regra de Perceptron à Descida de Gradiente: Como os Perceptrons com uma função de ativação sigmóide são diferentes da Regressão Logística?

Essencialmente, minha pergunta é que, nos Perceptrons multicamadas, os perceptrons são usados com uma função de ativação sigmóide. De modo que na regra de actualização y é calculado comoy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Como esse Perceptron "sigmóide" difere de uma regressão logística então? Eu diria que um perceptron sigmóide de camada …

21 logistic classification neural-networks gradient-descent perceptron

2

Nas redes neurais, por que usar métodos de gradiente em vez de outras metaheurísticas?

No treinamento de redes neurais profundas e rasas, por que os métodos de gradiente (por exemplo, descida de gradiente, Nesterov, Newton-Raphson) são comumente usados, em oposição a outras metaheurísticas? Por metaheurísticas, refiro-me a métodos como recozimento simulado, otimização de colônias de formigas etc., que foram desenvolvidos para evitar o empate …

20 neural-networks optimization deep-learning gradient-descent backpropagation

3

Quando os algoritmos genéticos são uma boa opção para otimização?

Os algoritmos genéticos são uma forma de método de otimização. Frequentemente, a descida do gradiente estocástico e seus derivados são a melhor opção para otimização de funções, mas algoritmos genéticos ainda são usados algumas vezes. Por exemplo, a antena da sonda ST5 da NASA foi criada com um algoritmo genético: …

20 machine-learning optimization gradient-descent genetic-algorithms

3

Pode haver várias soluções ótimas locais quando resolvemos uma regressão linear?

Li esta afirmação em um antigo exame verdadeiro / falso: Podemos obter várias soluções ótimas locais se resolvermos um problema de regressão linear, minimizando a soma dos erros ao quadrado usando a descida do gradiente. Solução: Falso Minha pergunta é: qual parte dessa pergunta está errada? Por que essa afirmação …

19 least-squares gradient-descent convex

3

Como a descida estocástica do gradiente evita o problema de um mínimo local?

Eu sei que a descida estocástica do gradiente tem comportamento aleatório, mas não sei por quê. Existe alguma explicação sobre isso?

19 machine-learning random-variable gradient-descent

3

Como o tamanho do lote afeta a convergência do SGD e por quê?

Eu já vi conclusões semelhantes em muitas discussões, de que à medida que o tamanho de minibatch aumenta, a convergência do SGD fica realmente mais difícil / pior, por exemplo, este artigo e esta resposta . Também ouvi falar de pessoas que usam truques como pequenas taxas de aprendizado ou …

18 machine-learning neural-networks optimization gradient-descent sgd

Perguntas com a marcação «gradient-descent»