Estatísticas e Big Data loss-functions

2

É prática comum minimizar a perda média dos lotes em vez da soma?

O Tensorflow tem um tutorial de exemplo sobre a classificação do CIFAR-10 . No tutorial, a perda média de entropia cruzada no lote é minimizada. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from …

14 neural-networks loss-functions tensorflow

1

Decomposição de viés e variância

Na seção 3.2 do Reconhecimento de padrões e aprendizado de máquina de Bishop , ele discute a decomposição da variação de viés, afirmando que, para uma função de perda ao quadrado, a perda esperada pode ser decomposta em um termo de viés ao quadrado (que descreve a que distância as …

13 self-study variance bias regularization loss-functions

1

Por que o classificador ingênuo de bayes é ideal para perda de 0-1?

O classificador Naive Bayes é o classificador que atribui itens a uma classe base na maximização do posterior para associação à classe e assume que os recursos dos itens são independentes.CxxxCCCP(C|x)P(C|x)P(C|x) A perda de 0-1 é a perda que atribui a qualquer classificação incorreta uma perda de "1" e uma …

13 machine-learning bayesian optimization naive-bayes loss-functions

2

Classificação com etiquetas barulhentas?

Estou tentando treinar uma rede neural para classificação, mas os rótulos que tenho são bastante barulhentos (cerca de 30% deles estão errados). A perda de entropia cruzada realmente funciona, mas eu queria saber se existem alternativas mais eficazes nesse caso. ou a perda de entropia cruzada é a ideal? Não …

13 machine-learning neural-networks loss-functions noise

2

Por que uma função de perda de 0-1 é intratável?

No livro Deep Learning de Ian Goodfellow , está escrito que Às vezes, a função de perda com a qual realmente nos preocupamos (digamos, erro de classificação) não é aquela que pode ser otimizada com eficiência. Por exemplo, minimizar exatamente a perda esperada de 0-1 é tipicamente intratável (exponencial na …

12 neural-networks deep-learning loss-functions

2

Definições diferentes da função de perda de entropia cruzada

Comecei aprendendo sobre redes neurais com o tutorial neuralnetworksanddeeplearning dot.com. Em particular no capítulo 3, há uma seção sobre a função de entropia cruzada e define a perda de entropia cruzada como: C= - 1n∑x∑j( yjemumaeuj+ ( 1 - yj) em( 1 - aeuj) ))C=-1n∑x∑j(yjem⁡umajeu+(1-yj)em⁡(1-umajeu))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j …

12 neural-networks loss-functions softmax cross-entropy

1

Gradiente para a função de perda logística

Eu faria uma pergunta relacionada a este . Encontrei um exemplo de como escrever a função de perda personalizada para o xgboost aqui : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- …

12 r machine-learning gradient-descent boosting loss-functions

5

Que função de perda devo usar para detecção binária na detecção de face / sem face na CNN?

Eu quero usar o aprendizado profundo para treinar uma detecção binária de face / sem face, que perda devo usar, acho que é SigmoidCrossEntropyLoss ou perda de dobradiça . Está certo, mas também gostaria de usar o softmax, mas com apenas duas classes?

11 deep-learning loss-functions computer-vision conv-neural-network

1

Aproximação de segunda ordem da função de perda (Deep learning book, 7.33)

No livro de Goodfellow (2016) sobre aprendizado profundo, ele falou sobre a equivalência da parada antecipada à regularização de L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247). A aproximação quadrática da função de custo é dada por:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) onde é a matriz hessiana (Eq. 7.33). Isso está faltando no meio termo? A expansão …

11 neural-networks deep-learning loss-functions derivative

3

Que função de perda deve-se usar para obter um classificador binário de alta precisão ou alto recall?

Estou tentando fazer um detector de objetos que ocorrem muito raramente (em imagens), planejando usar um classificador binário da CNN aplicado em uma janela deslizante / redimensionada. Eu construí conjuntos de teste e treinamento positivo-negativos equilibrados 1: 1 (é a coisa certa a se fazer nesse caso, btw?), E o …

11 logistic classification unbalanced-classes loss-functions

1

Função de perda de desvio binomial do Scikit

Esta é a função de perda de desvio binomial do scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: …

11 machine-learning scikit-learn boosting loss-functions

2

Funções de perda de percentil

A solução para o problema: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] é conhecido por ser a mediana de XXX , mas como é a função de perda para outros percentis? Ex: o 25º percentil de X é a solução para: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] O que é LLL neste caso?

11 expected-value loss-functions

3

MAP é uma solução para

Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Alguém pode explicar como isso se segue? Editar: Adicionado os slides, caso o …

10 bayesian optimization loss-functions decision-theory map-estimation

1

Que função de perda devo usar para pontuar um modelo RNN seq2seq?

Estou trabalhando no artigo de Cho 2014 , que introduziu a arquitetura codificador-decodificador para modelagem seq2seq. No artigo, eles parecem usar a probabilidade da saída fornecida (ou é uma probabilidade negativa de log) como a função de perda para uma entrada de comprimento e saída de comprimento :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, …

10 deep-learning loss-functions rnn

1

Como um estimador que minimiza uma soma ponderada de tendência e variação ao quadrado se encaixa na teoria da decisão?

Ok - minha mensagem original falhou em obter uma resposta; então, deixe-me colocar a questão de forma diferente. Começarei explicando meu entendimento sobre estimativa de uma perspectiva teórica da decisão. Não tenho treinamento formal e não me surpreenderia se meu pensamento fosse defeituoso de alguma forma. Suponha que tenhamos alguma …

10 bias loss-functions frequentist decision-theory risk

Perguntas com a marcação «loss-functions»