Perguntas com a marcação «optimization»

Use essa tag para qualquer uso de otimização nas estatísticas.



1
Ajuste de hiperparâmetro na regressão de processo gaussiana
log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguinteslog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto …

3
A otimização do PCA é convexa?
A função objetivo da Análise de Componentes Principais (PCA) é minimizar o erro de reconstrução na norma L2 (consulte a seção 2.12 aqui . Outra visão é tentar maximizar a variação na projeção. Também temos um excelente post aqui: Qual é a função objetivo do PCA ? ). Minha pergunta …

2
Como resolver o desvio mínimo absoluto pelo método simplex?
Aqui está o problema de desvio menos absoluto em questão:. Eu sei que pode ser reorganizado como problema de LP da seguinte maneira:argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Mas não tenho idéia de resolvê-lo passo a …



1
RMSProp e Adam vs SGD
Estou realizando experimentos no conjunto de validação EMNIST usando redes com RMSProp, Adam e SGD. Estou atingindo uma precisão de 87% com SGD (taxa de aprendizado de 0,1) e desistência (prob de desistência de 0,1), bem como regularização de L2 (penalidade 1e-05). Ao testar a mesma configuração exata com o …




1



1
O que significa "baunilha"?
Nos blogs de aprendizado de máquina, encontro frequentemente a palavra "baunilha". Por exemplo, "Descida de gradiente de baunilha" ou "método de baunilha". Esse termo nunca é visto literalmente em nenhum livro didático de otimização. Por exemplo, neste post , ele diz: Essa é a forma mais simples da técnica de …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.