Infelizmente, a resposta agora aceita por @Sycorax, embora detalhada, está incorreta.
Na verdade, um excelente exemplo de regressão através da entropia cruzada categórica - Wavenet - foi implementado no TensorFlow .
O princípio é que você discretiza seu espaço de saída e, em seguida, seu modelo prevê apenas o respectivo compartimento; consulte a Seção 2.2 do documento para obter um exemplo no domínio da modelagem de som. Portanto, embora tecnicamente o modelo execute a classificação, a tarefa final resolvida é a regressão.
Uma desvantagem óbvia é que você perde a resolução de saída. No entanto, isso pode não ser um problema (pelo menos eu acho que o assistente artificial do Google falou com uma voz muito humana ) ou você pode brincar com algum pós-processamento, por exemplo, interpolar entre a lixeira mais provável e seus dois vizinhos.
Por outro lado, essa abordagem torna o modelo muito mais poderoso em comparação com a saída de unidade linear única usual, ou seja, permitindo expressar previsões multimodais ou avaliar sua confiança. Observe, porém, que o último pode ser alcançado naturalmente por outros meios, por exemplo, tendo uma saída de variação explícita (log) como nos Autoencodificadores Variacionais.
De qualquer forma, essa abordagem não se adapta bem a saídas mais dimensionais, porque o tamanho da camada de saída aumenta exponencialmente, tornando-o um problema computacional e de modelagem.