Perguntas com a marcação «hyperparameter»

Um parâmetro que não é estritamente para o modelo estatístico (ou processo de geração de dados), mas um parâmetro para o método estatístico. Pode ser um parâmetro para: uma família de distribuições anteriores, suavização, uma penalidade nos métodos de regularização ou um algoritmo de otimização.

3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Diretriz para selecionar os hiperparâmetros no Deep Learning
Estou procurando um artigo que possa ajudar a fornecer diretrizes sobre como escolher os hiperparâmetros de uma arquitetura profunda, como auto-codificadores empilhados ou redes de crenças profundas. Existem muitos hiperparâmetros e estou muito confuso sobre como escolhê-los. O uso da validação cruzada também não é uma opção, pois o treinamento …


2
Interpretação natural para hiperparâmetros LDA
Alguém pode explicar qual é a interpretação natural para os hiperparâmetros LDA? ALPHAe BETAsão parâmetros de distribuições Dirichlet para distribuições de tópicos (por documento) e (por tópico) palavras, respectivamente. No entanto, alguém pode explicar o que significa escolher valores maiores desses hiperparâmetros versus valores menores? Isso significa colocar alguma crença …


5
O que há em um nome: hiperparâmetros
Portanto, em uma distribuição normal, temos dois parâmetros: média e variância . No livro Reconhecimento de Padrões e Aprendizado de Máquina , aparece subitamente um hiperparâmetro nos termos de regularização da função de erro.μμ\muσ2σ2\sigma^2λλ\lambda O que são hiperparâmetros? Por que eles são nomeados como tal? E como eles são intuitivamente …


2
Vantagens da otimização de enxame de partículas em relação à otimização bayesiana para ajuste de hiperparâmetro?
Existem pesquisas contemporâneas substanciais sobre otimização bayesiana (1) para ajustar os hiperparâmetros de ML. A motivação motriz aqui é que é necessário um número mínimo de pontos de dados para fazer escolhas informadas sobre quais pontos vale a pena tentar (chamadas de função objetivas são caras, portanto, menos é melhor) …






1
Ajuste de hiperparâmetro na regressão de processo gaussiana
log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguinteslog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.