Perguntas com a marcação «derivative»

Para questões específicas envolvendo o conceito matemático de uma derivada, ou seja, ddxf(x). Para questões puramente matemáticas sobre a derivada, é melhor perguntar em matemática SE https://math.stackexchange.com/

6
Retropropagação com Softmax / Cross Entropy
Estou tentando entender como a retropropagação funciona para uma camada de saída softmax / entropia cruzada. A função de erro de entropia cruzada é E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j com ttt e ooo como alvo e saída no neurônio jjj , respectivamente. A soma é sobre cada neurônio na camada de …



1
Derivação da mudança de variáveis ​​de uma função de densidade de probabilidade?
No reconhecimento de padrões de livros e aprendizado de máquina (fórmula 1.27), fornece py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | ondex=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x)é o pdf que corresponde apy(y)py(y)p_y(y) com relação à alteração da variável. Os livros dizem que é porque as observações que caem no intervalo (x,x+δx)(x,x+δx)(x, x …


2
Derivada de um processo gaussiano
Acredito que a derivada de um processo gaussiano (GP) é outra GP e, portanto, gostaria de saber se existem equações de forma fechada para as equações de previsão da derivada de uma GP? Em particular, estou usando o núcleo de covariância exponencial ao quadrado (também chamado de Gaussiano) e quero …

1
Aproximação de segunda ordem da função de perda (Deep learning book, 7.33)
No livro de Goodfellow (2016) sobre aprendizado profundo, ele falou sobre a equivalência da parada antecipada à regularização de L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247). A aproximação quadrática da função de custo é dada por:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) onde é a matriz hessiana (Eq. 7.33). Isso está faltando no meio termo? A expansão …

1
Interpretação do derivado de Radon-Nikodym entre medidas de probabilidade?
Já vi em alguns momentos o uso da derivada Radon-Nikodym de uma medida de probabilidade em relação a outra, principalmente na divergência de Kullback-Leibler, onde é a derivada da medida de probabilidade de um modelo para algum parâmetro arbitrário em relação ao parâmetro real :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Onde ambas são …


1
O que justifica esse cálculo da derivada de uma função de matriz?
No curso de aprendizado de máquina de Andrew Ng, ele usa esta fórmula: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T e ele faz uma prova rápida, que é mostrada abaixo: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + …


1
Derivadas de gradiente e vetor: vetor de linha ou coluna?
Muitas referências (incluindo a wikipedia e http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf e http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) definem a derivada de um função por um vetor como derivadas parciais da função organizada em uma linha (portanto, uma derivada de uma função com valor escalar é um vetor de linha). Nesta convenção, o gradiente e a derivada do …

2
Derivada do Softmax em relação aos pesos
Eu sou novo no aprendizado profundo e estou tentando calcular a derivada da seguinte função em relação à matriz :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Usando a regra do quociente, recebo: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0 …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.