Qual é a melhor função de custo para treinar uma rede neural para executar a regressão ordinal , ou seja, prever um resultado cujo valor existe em uma escala arbitrária, em que apenas a ordem relativa entre valores diferentes é significativa (por exemplo: prever qual o tamanho do produto que o cliente solicitará : 'pequeno' (codificado como 0), 'médio' (codificado como 1), 'grande' (codificado como 2) ou 'extra-grande' (codificado como 3))? Estou tentando descobrir se existem alternativas melhores do que a perda quadrática (modelando o problema como uma regressão 'baunilha') ou a perda de entropia cruzada (modelando o problema como classificação).