Estou tentando treinar uma rede neural para classificação, mas os rótulos que tenho são bastante barulhentos (cerca de 30% deles estão errados).
A perda de entropia cruzada realmente funciona, mas eu queria saber se existem alternativas mais eficazes nesse caso. ou a perda de entropia cruzada é a ideal?
Não tenho certeza, mas estou pensando em "recortar" a perda de entropia cruzada, de modo que a perda de um ponto de dados não seja maior que um limite superior, isso funcionará?
Obrigado!
Atualização
De acordo com a resposta de Lucas, obtive o seguinte para as derivadas da saída de previsão entrada da função softmax z . Então eu acho que basicamente ele está adicionando um termo de suavização 3 para os derivados. pi=0,3/N+0,7yil=-Σtilog(pi)∂l
Atualização
Acabei de ler um artigo do Google que aplica a mesma fórmula da resposta de Lucas, mas com interpretações diferentes.
Na Seção 7, Regularização do modelo via suavização de etiquetas
Mas, em vez de adicionar o termo suavizado às previsões, eles o acrescentaram à verdade básica , que acabou sendo útil.