Estatísticas e Big Data optimization

4

Por que os algoritmos de otimização são definidos em termos de outros problemas de otimização?

Estou pesquisando técnicas de otimização para aprendizado de máquina, mas fico surpreso ao descobrir que um grande número de algoritmos de otimização é definido em termos de outros problemas de otimização. Ilustro alguns exemplos a seguir. Por exemplo, https://arxiv.org/pdf/1511.05133v1.pdf Tudo parece bom e bom, mas há esse na atualização .... …

23 machine-learning svm optimization

2

As técnicas de aprendizado de máquina são "algoritmos de aproximação"?

Recentemente, houve uma pergunta semelhante ao ML na troca de pilha de teoria, e eu postei uma resposta recomendando o método de Powell, descida de gradiente, algoritmos genéticos ou outros "algoritmos de aproximação". Em um comentário, alguém me disse que esses métodos eram "heurísticos" e não "algoritmos de aproximação" e …

23 machine-learning optimization approximation

4

Sempre existe um maximizador para qualquer problema de MLE?

Gostaria de saber se há sempre um maximizador para qualquer problema de estimativa de máxima (log-) probabilidade? Em outras palavras, existe alguma distribuição e alguns de seus parâmetros, para os quais o problema do MLE não possui um maximizador? Minha pergunta vem de uma afirmação de um engenheiro de que …

23 maximum-likelihood optimization

3

Coordenada vs. descida de gradiente

Eu queria saber quais são os diferentes casos de uso para os dois algoritmos, descida de coordenadas e descida de gradiente . Eu sei que a descida de coordenadas tem problemas com funções não suaves, mas é usada em algoritmos populares como SVM e LASSO. Acho que a descida em …

23 optimization gradient-descent

1

Por que a função de custo das redes neurais não é convexa?

Existe uma discussão semelhante aqui (a função de custo da rede neural não é convexa? ), Mas não consegui entender os pontos nas respostas e minha razão para perguntar novamente, esperando que isso esclareça alguns problemas: Se estou usando soma de função de custo diferença de quadrados, sou em última …

22 machine-learning neural-networks optimization loss-functions convex

4

Como garantir propriedades da matriz de covariância ao ajustar o modelo normal multivariado usando a máxima verossimilhança?

Suponha que eu tenha o seguinte modelo yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i onde , é um vetor de variáveis explicativas, são os parâmetros da função não linear e , onde é naturalmente matriz.yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K O objetivo é o usual para estimar e . A escolha óbvia é o método de máxima verossimilhança. …

22 maximum-likelihood optimization covariance

3

Por que probabilidade máxima e probabilidade não esperada?

Por que é tão comum obter estimativas de probabilidade máxima de parâmetros, mas você praticamente nunca ouve falar das estimativas esperadas de parâmetros de probabilidade (ou seja, com base no valor esperado e não no modo de uma função de probabilidade)? Isso ocorre principalmente por razões históricas ou por razões …

22 probability mathematical-statistics maximum-likelihood optimization expected-value

2

Como escolher entre algoritmos de aprendizagem

Preciso implementar um programa que classifique os registros em duas categorias (verdadeiro / falso), com base em alguns dados de treinamento, e fiquei pensando em qual algoritmo / metodologia eu deveria estar olhando. Parece haver muitos deles para escolher - Rede Neural Artificial, Algoritmo Genético, Aprendizado de Máquina, Otimização Bayesiana …

21 machine-learning bayesian optimization genetic-algorithms

1

Existe alguma explicação intuitiva sobre por que a regressão logística não funciona para um caso de separação perfeito? E por que adicionar regularização irá corrigi-lo?

Temos muitas boas discussões sobre a separação perfeita na regressão logística. Por exemplo, a regressão logística em R resultou em perfeita separação (fenômeno de Hauck-Donner). O que agora? e o modelo de regressão logística não converge . Pessoalmente, ainda acho que não é intuitivo por que será um problema e …

20 logistic generalized-linear-model optimization intuition separation

7

Por que as matrizes simétricas positivas definidas (SPD) são tão importantes?

Conheço a definição de matriz simétrica positiva definida (SPD), mas quero entender mais. Por que eles são tão importantes, intuitivamente? Aqui está o que eu sei. O quê mais? Para um dado dado, a matriz de co-variância é SPD. Matriz de co-variância é uma métrica importante; consulte este excelente post …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

2

Nas redes neurais, por que usar métodos de gradiente em vez de outras metaheurísticas?

No treinamento de redes neurais profundas e rasas, por que os métodos de gradiente (por exemplo, descida de gradiente, Nesterov, Newton-Raphson) são comumente usados, em oposição a outras metaheurísticas? Por metaheurísticas, refiro-me a métodos como recozimento simulado, otimização de colônias de formigas etc., que foram desenvolvidos para evitar o empate …

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Quais métodos de otimização funcionam melhor para LSTMs?

Eu tenho usado o theano para experimentar LSTMs e queria saber quais métodos de otimização (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionam melhor para LSTMs? Existem trabalhos de pesquisa sobre esse assunto? Além disso, a resposta depende do tipo de aplicativo para o qual estou usando o LSTM? Nesse caso, …

20 machine-learning neural-networks optimization lstm

3

Quando os algoritmos genéticos são uma boa opção para otimização?

Os algoritmos genéticos são uma forma de método de otimização. Frequentemente, a descida do gradiente estocástico e seus derivados são a melhor opção para otimização de funções, mas algoritmos genéticos ainda são usados algumas vezes. Por exemplo, a antena da sonda ST5 da NASA foi criada com um algoritmo genético: …

20 machine-learning optimization gradient-descent genetic-algorithms

2

Qual é o significado do super script 2 subscript 2 dentro do contexto das normas?

Eu sou novo na otimização. Continuo vendo equações que têm um sobrescrito 2 e um subscrito 2 no lado direito de uma norma. Por exemplo, aqui está a equação dos mínimos quadrados min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Acho que entendo o sobrescrito 2: significa elevar o valor da norma. Mas qual é o …

20 regression optimization notation

1

Definição matemática / algorítmica para super adaptação

Existe uma definição matemática ou algorítmica de sobreajuste? As definições geralmente fornecidas são o gráfico 2-D clássico de pontos, com uma linha passando por cada ponto e a curva de perda de validação subindo subitamente. Mas existe uma definição matematicamente rigorosa?

18 mathematical-statistics optimization overfitting

Perguntas com a marcação «optimization»