É bom usar a função de perda de entropia cruzada com rótulos flexíveis?

Eu tenho um problema de classificação em que os pixels serão rotulados com rótulos flexíveis (que denotam probabilidades) em vez de rótulos rígidos 0,1. No início, com 0,1 pixel rígido rotulando a função de perda de entropia cruzada (sigmoidCross entropyLossLayer da Caffe) estava obtendo resultados decentes. Tudo bem usar a camada de perda de entropia cruzada sigmóide (da Caffe) para esse problema de classificação suave?

classification loss-functions

— saikat
fonte

Estou procurando uma função de entropia cruzada que possa lidar com rótulos com valor real. Por favor, deixe-me saber se você souber uma resposta aqui

— Amir

A resposta é sim, mas você precisa defini-la da maneira certa.

$p$ $q$

H (p, q) = - \sum_{y} p (y) \log q (y)

$H(p, q) = -\sum_y p(y) \log q(y)$

$p$ $q$ $x_0$ $y_0$

- \sum_{y} I {y = y_{0}} \log q (y ∣ x_{0}) = - \log q (y_{0} ∣ x_{0})

$-\sum_y I\{y = y_0\} \log q(y \mid x_0) = -\log q(y_0 \mid x_0)$

$I\{\cdot\}$

No caso de rótulos 'flexíveis' como você mencionou, os rótulos não são mais identidades de classe em si, mas probabilidades em duas classes possíveis. Por esse motivo, você não pode usar a expressão padrão para a perda de log. Mas, o conceito de entropia cruzada ainda se aplica. De fato, parece ainda mais natural nesse caso.

$y$ $s(x)$ $x$

p (y ∣ x) = {\begin{array}{cl} s (x) & E se y = 1 \\ 1 - s (x) & E se y = 0 0 \end{array}

$p(y \mid x) = \left \{ \begin{array}{cl} s(x) & \text{If } y = 1 \\ 1-s(x) & \text{If } y = 0 \end{array} \right .$

O classificador também fornece uma distribuição por classes, considerando a entrada:

q (y ∣ x) = {\begin{array}{cl} c (x) & E se y = 1 \\ 1 - c (x) & E se y = 0 0 \end{array}

$q(y \mid x) = \left \{ \begin{array}{cl} c(x) & \text{If } y = 1 \\ 1-c(x) & \text{If } y = 0 \end{array} \right .$

$c(x)$ $x$

$p$ $q$ $\{0, 1\}$

\begin{array}{ccl} H (p, q) & = & - p (y = 0 0 ∣ x) registro q (y = 0 0 ∣ x) - p (y = 1 ∣ x) registro q (y = 1 ∣ x) \\ = & - (1 - s (x)) registro (1 - c (x)) - s (x) registro c (x) \end{array}

$\begin{array}{ccl} H(p, q) & = & - p(y=0 \mid x) \log q(y=0 \mid x) - p(y=1 \mid x) \log q(y=1 \mid x)\\ & = & -(1-s(x)) \log (1-c(x)) - s(x) \log c(x) \end{array}$

Essa é a expressão para um único ponto de dados observado. A função de perda seria a média em todos os pontos de dados. Obviamente, isso também pode ser generalizado para a classificação multiclasse.

— user20160
fonte

Continuo voltando à lucidez dessa resposta.

— auro