Observei que Caffe (uma estrutura de aprendizado profundo) usava a Softmax Loss Layer SoftmaxWithLoss
como camada de saída para a maioria das amostras do modelo .
Até onde eu sei, a camada Softmax Loss é a combinação de Camada Multinomial de Perda Logística e Camada Softmax .
De Caffe, eles disseram que
O cálculo do gradiente da Softmax Loss Layer é mais numericamente estável
No entanto, essa explicação não é a resposta que eu quero, a explicação é apenas comparar a combinação da camada Multinomial Logistic Loss Layer e Softmax Loss em vez de camada por camada. Mas não compare com outro tipo de função de perda.
No entanto, gostaria de saber mais quais são as diferenças / vantagens / desvantagens dessas três funções de erro, que são Perdas Logísticas Multinomiais , Entropia Cruzada (CE) e Erro Quadrado (SE) na perspectiva de aprendizado supervisionado? Algum artigo de suporte?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html