Perguntas com a marcação «loss-functions»

Função usada para quantificar a diferença entre os dados observados e os valores previstos de acordo com um modelo. A minimização de funções de perda é uma maneira de estimar os parâmetros do modelo.

5
Que função de perda para tarefas de classificação multi-classe e multi-rótulo em redes neurais?
Estou treinando uma rede neural para classificar um conjunto de objetos em n-classes. Cada objeto pode pertencer a várias classes ao mesmo tempo (multi-classe, multi-rótulo). Li que, para problemas com várias classes, geralmente é recomendável usar softmax e entropia cruzada categórica como a função de perda em vez de mse …

3
Aprendizado de máquina: devo usar uma perda de entropia cruzada categórica ou de entropia cruzada binária para previsões binárias?
Antes de tudo, percebi que, se preciso realizar previsões binárias, tenho que criar pelo menos duas classes executando uma codificação one-hot. Isso está correto? No entanto, a entropia cruzada binária é apenas para previsões com apenas uma classe? Se eu usasse uma perda de entropia cruzada categórica, que normalmente é …

5
A função de custo da rede neural não é convexa?
A função de custo da rede neural é J(W,b)J(W,b)J(W,b) e é reivindicada como não convexa . Não entendo muito bem por que é assim, pois, como vejo, é bastante semelhante à função de custo da regressão logística, certo? Se não for convexa, a derivada de 2ª ordem ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} …

2
Função de custo na regressão linear OLS
Estou um pouco confuso com uma palestra sobre regressão linear dada por Andrew Ng no Coursera sobre aprendizado de máquina. Lá, ele deu uma função de custo que minimiza a soma dos quadrados como: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Eu entendo de onde vem o . Eu acho que ele …


4
Qual função de perda está correta para a regressão logística?
Eu li sobre duas versões da função de perda para regressão logística, qual delas está correta e por quê? No Machine Learning , Zhou ZH (em chinês), com β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Do meu curso na faculdade, …

5
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina
Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Função de perda XGBoost Aproximação com expansão de Taylor
Como exemplo, assumir a função objetivo do modelo XGBoost no 'th iteração:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) onde é a função de perda, é o 'th saída de árvore e é a regularização. Uma das (muitas) etapas principais para o cálculo rápido é a aproximação:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), onde e são a primeira e a …

3
Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1
Sabemos que algumas funções objetivas são mais fáceis de otimizar e outras são difíceis. E há muitas funções de perda que queremos usar, mas difíceis de usar, por exemplo, perda de 0-1. Portanto, encontramos algumas funções de perda de proxy para fazer o trabalho. Por exemplo, usamos perda de dobradiça …


1
A perda de treinamento diminui e aumenta novamente. O que está acontecendo?
Minha perda de treinamento diminui e depois sobe novamente. Isso é muito estranho. A perda de validação cruzada rastreia a perda de treinamento. O que está acontecendo? Eu tenho dois LSTMS empilhados da seguinte maneira (no Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) …

3
Gradiente de perda de dobradiça
Estou tentando implementar a descida básica do gradiente e estou testando-a com uma função de perda de dobradiça, ou seja, lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) . No entanto, estou confuso sobre o gradiente da perda de dobradiça. Estou com a impressão de que é ∂∂wlhinge={−y x0if y x⋅w<1if y …

2
Regressão quantílica: função de perda
Estou tentando entender a regressão quantílica, mas uma coisa que me faz sofrer é a escolha da função de perda. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Eu sei que o mínimo da expectativa de é igual ao -quantile, mas qual é o motivo intuitivo para começar com essa função? Não vejo a relação …

2
Como projetar e implementar uma função de perda assimétrica para regressão?
Problema Na regressão, geralmente calcula-se o erro quadrático médio (MSE) de uma amostra: para medir a qualidade de um preditor.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 No momento, estou trabalhando em um problema de regressão em que o objetivo é prever o preço que os clientes estão dispostos a pagar …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.