Perguntas com a marcação «optimization»

Use essa tag para qualquer uso de otimização nas estatísticas.



1
A probabilidade de log no GLM garantiu convergência para os máximos globais?
Minhas perguntas são: Os modelos lineares generalizados (GLMs) garantem convergir para um máximo global? Se sim, por quê? Além disso, que restrições existem na função de link para garantir a convexidade? Meu entendimento dos GLMs é que eles maximizam uma função de probabilidade altamente não-linear. Assim, eu imaginaria que existem …

2
Como escolher o algoritmo de otimização certo?
Eu preciso encontrar o mínimo de uma função. Lendo os documentos em http://docs.scipy.org/doc/scipy/reference/optimize.html Vejo que existem vários algoritmos que fazem a mesma coisa, ou seja, encontram o mínimo. Como sei qual devo escolher? alguns dos algoritmos listados Minimize uma função usando o algoritmo simplex em declive. Minimize uma função usando …


1
Como a descida estocástica do gradiente poderia economizar tempo em comparação com a descida padrão do gradiente?
A Descida de gradiente padrão calcularia o gradiente para todo o conjunto de dados de treinamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para um número predefinido de épocas, primeiro calculamos o vetor de gradiente weights_grad da função de perda para …

1
Esclarecimento sobre a implementação da regra de Perceptron vs. descida de gradiente vs. descida estocástica de gradiente
Eu experimentei um pouco com diferentes implementações do Perceptron e quero ter certeza de que entendi as "iterações" corretamente. Regra original do perceptron de Rosenblatt Tanto quanto eu entendo, no algoritmo clássico de Rosenblatt perceptron, os pesos são atualizados simultaneamente após cada exemplo de treinamento via Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + …

2
Estimação ARIMA à mão
Estou tentando entender como os parâmetros são estimados na modelagem ARIMA / Box Jenkins (BJ). Infelizmente, nenhum dos livros que encontrei descreve o procedimento de estimativa, como o procedimento de estimativa do Log-Likelihood em detalhes. Achei o site / material didático que foi muito útil. A seguir, é apresentada a …





3
Diferença no uso de gradiente normalizado e gradiente
Na configuração geral do algoritmo de descida em gradiente, temos que x n é o ponto atual, η é o tamanho da etapa e g r a d i e n t x n é o gradiente avaliado em x n . xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etagradientxngradientxngradient_{x_n}xnxnx_n Eu …

1
Por que não usamos taxas de aprendizado não constantes para o gradiente decente para outras coisas que não as redes neurais?
A literatura de aprendizado profundo está cheia de truques inteligentes com o uso de taxas de aprendizado não constantes na descida do gradiente. Coisas como decaimento exponencial, RMSprop, Adagrad etc. são fáceis de implementar e estão disponíveis em todos os pacotes de aprendizado profundo, mas parecem inexistentes fora das redes …

1
Probabilidade máxima restrita com classificação de coluna menor que a completa de
Esta questão lida com a estimativa de máxima verossimilhança restrita (REML) em uma versão específica do modelo linear, a saber: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), onde X(α)X(α)X(\alpha) é uma matriz ( ) parametrizada por , como . é um vetor desconhecido de parâmetros incômodos; o …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.