A resposta é sim, mas você precisa defini-la da maneira certa.
pq
H( p , q) = - ∑yp ( y) logq( y)
pqx0 0y0 0
- ∑yEu{ y= y0 0} logq( y∣ x0 0) = - logq( y0 0∣ x0 0)
Eu{ ⋅ }
No caso de rótulos 'flexíveis' como você mencionou, os rótulos não são mais identidades de classe em si, mas probabilidades em duas classes possíveis. Por esse motivo, você não pode usar a expressão padrão para a perda de log. Mas, o conceito de entropia cruzada ainda se aplica. De fato, parece ainda mais natural nesse caso.
ys ( x )x
p ( y∣ x ) = { s ( x )1 - s ( x )Se y= 1Se y= 0
O classificador também fornece uma distribuição por classes, considerando a entrada:
q( y∣ x ) = { c ( x )1 - c ( x )Se y= 1Se y= 0
c ( x )x
pq{ 0 , 1 }
H( p , q)==- p ( y= 0 | x ) logq( y= 0 ∣ x ) - p ( y= 1 | x ) logq( y= 1 | x )- ( 1 - s ( x ) ) log( 1 - c ( x ) ) - s ( x ) logc ( x )
Essa é a expressão para um único ponto de dados observado. A função de perda seria a média em todos os pontos de dados. Obviamente, isso também pode ser generalizado para a classificação multiclasse.