Eu tenho uma rede neural configurada para prever algo em que a variável de saída é ordinal. Descreverei abaixo usando três saídas possíveis A <B <C.
É bastante óbvio como usar uma rede neural para gerar dados categóricos: a saída é apenas um softmax da última camada (geralmente totalmente conectada), uma por categoria, e a categoria prevista é a que possui o maior valor de saída (isso é o padrão em muitos modelos populares). Eu tenho usado a mesma configuração para valores ordinais. No entanto, nesse caso, as saídas geralmente não fazem sentido; por exemplo, as saídas de rede para A e C são altas, mas B é baixa: isso não é plausível para valores ordinais.
Eu tenho uma idéia para isso, que é calcular a perda com base na comparação das saídas com 1 0 0 para A, 1 1 0 para B e 1 1 1 para C. Os limites exatos podem ser ajustados posteriormente usando outro classificador (por exemplo, Bayesiano). ), mas isso parece capturar a ideia essencial de uma ordem de entradas, sem prescrever nenhuma escala de intervalo específica.
Qual é a maneira padrão de resolver esse problema? Existe alguma pesquisa ou referência que descreva os prós e contras de diferentes abordagens?