Perguntas com a marcação «loss-functions»

Função usada para quantificar a diferença entre os dados observados e os valores previstos de acordo com um modelo. A minimização de funções de perda é uma maneira de estimar os parâmetros do modelo.






2
Definições diferentes da função de perda de entropia cruzada
Comecei aprendendo sobre redes neurais com o tutorial neuralnetworksanddeeplearning dot.com. Em particular no capítulo 3, há uma seção sobre a função de entropia cruzada e define a perda de entropia cruzada como: C= - 1n∑x∑j( yjemumaeuj+ ( 1 - yj) em( 1 - aeuj) ))C=-1n∑x∑j(yjem⁡umajeu+(1-yj)em⁡(1-umajeu))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j …



1
Aproximação de segunda ordem da função de perda (Deep learning book, 7.33)
No livro de Goodfellow (2016) sobre aprendizado profundo, ele falou sobre a equivalência da parada antecipada à regularização de L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247). A aproximação quadrática da função de custo é dada por:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) onde é a matriz hessiana (Eq. 7.33). Isso está faltando no meio termo? A expansão …

3
Que função de perda deve-se usar para obter um classificador binário de alta precisão ou alto recall?
Estou tentando fazer um detector de objetos que ocorrem muito raramente (em imagens), planejando usar um classificador binário da CNN aplicado em uma janela deslizante / redimensionada. Eu construí conjuntos de teste e treinamento positivo-negativos equilibrados 1: 1 (é a coisa certa a se fazer nesse caso, btw?), E o …


2
Funções de perda de percentil
A solução para o problema: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] é conhecido por ser a mediana de XXX , mas como é a função de perda para outros percentis? Ex: o 25º percentil de X é a solução para: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] O que é LLL neste caso?

3
MAP é uma solução para
Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Alguém pode explicar como isso se segue? Editar: Adicionado os slides, caso o …

1
Que função de perda devo usar para pontuar um modelo RNN seq2seq?
Estou trabalhando no artigo de Cho 2014 , que introduziu a arquitetura codificador-decodificador para modelagem seq2seq. No artigo, eles parecem usar a probabilidade da saída fornecida (ou é uma probabilidade negativa de log) como a função de perda para uma entrada de comprimento e saída de comprimento :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, …

1
Como um estimador que minimiza uma soma ponderada de tendência e variação ao quadrado se encaixa na teoria da decisão?
Ok - minha mensagem original falhou em obter uma resposta; então, deixe-me colocar a questão de forma diferente. Começarei explicando meu entendimento sobre estimativa de uma perspectiva teórica da decisão. Não tenho treinamento formal e não me surpreenderia se meu pensamento fosse defeituoso de alguma forma. Suponha que tenhamos alguma …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.