Smarty77 traz um bom argumento sobre a utilização de uma função sigmóide redimensionada. Inerentemente, a função sigmóide produz uma probabilidade, que descreve uma taxa de sucesso de amostragem (ou seja, 95 de 100 fotos com esses recursos são bem-sucedidas como 'cães'). O resultado final descrito é binário, e o treinamento, usando a 'entropia cruzada binária', descreve um processo de separação de resultados diametralmente opostos, que desencoraja inerentemente os resultados na faixa intermediária. O continuum da saída existe apenas para o dimensionamento com base no número de amostras (ou seja, um resultado de 0,9761 significa que 9761 de 10000 amostras que exibem essas ou tríades similares são 'cachorro'), mas cada resultado em si ainda deve ser considerado binário e não arbitrariamente granular. Assim sendo, não deve ser confundido e aplicado como seria um número real e pode não ser aplicável aqui. Embora eu não tenha certeza da utilização da rede, normalizaria o próprio vetor de saída wrt. Isso pode ser feito com o softmax. Isso também exigirá que haja 11 saídas lineares (posições) da rede (uma para cada saída de -5 a +5), uma para cada classe. Ele fornecerá um valor de garantia para qualquer 'caixa' ser a resposta correta. Essa arquitetura seria treinável com a codificação one-hot, com o 1 indicando a bandeja correta. O resultado é interpretável, então, de várias maneiras, como uma estratégia gananciosa ou uma amostragem probabilística. Isso também exigirá que haja 11 saídas lineares (posições) da rede (uma para cada saída de -5 a +5), uma para cada classe. Ele fornecerá um valor de garantia para qualquer 'caixa' ser a resposta correta. Essa arquitetura seria treinável com a codificação one-hot, com o 1 indicando a bandeja correta. O resultado é interpretável, então, de várias maneiras, como uma estratégia gananciosa ou uma amostragem probabilística. Isso também exigirá que haja 11 saídas lineares (posições) da rede (uma para cada saída de -5 a +5), uma para cada classe. Ele fornecerá um valor de garantia para qualquer 'caixa' ser a resposta correta. Essa arquitetura seria treinável com a codificação one-hot, com o 1 indicando a bandeja correta. O resultado é interpretável, então, de várias maneiras, como uma estratégia gananciosa ou uma amostragem probabilística.