a relação entre maximizar a probabilidade e minimizar a entropia cruzada

Há uma afirmação de que maximizar a probabilidade é equivalente a minimizar a entropia cruzada. Existe alguma prova para esta afirmação?

— user3269
fonte

Para os rótulos , a probabilidade de alguns dados binários no modelo de Bernoulli com parâmetros é enquanto a probabilidade do log é $y_i\in \{0,1\}$ $\theta$

L (θ) = \prod_{i = 1}^{n} p (y_{i} = 1 | θ)^{y_{i}} p (y_{i} = 0 | θ)^{1 - y_{i}}

$\mathcal{L}(\theta) = \prod_{i=1}^n p(y_i=1|\theta)^{y_i}p(y_i=0|\theta)^{1-y_i}\\$

\log L (θ) = \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$\log\mathcal{L}(\theta) = \sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

E a entropia cruzada binária é

L (θ) = - \frac{1}{n} \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$L(\theta) = -\frac{1}{n}\sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

Claramente, . $\log \mathcal{L}(\theta) = -nL(\theta)$

Sabemos que o valor ideal é o mesmo para ambos, porque podemos observar que, para qualquer que não seja ideal, temos , que vale para qualquer . (Lembre-se, queremos minimizar a entropia cruzada , para que o ideal tenha o mínimo .) $\theta^*$ $\theta$ $\frac{1}{n} L(\theta) > \frac{1}{n} L(\theta^*)$ $\frac{1}{n} > 0$ $\theta^*$ $L(\theta^*)$

Da mesma forma, sabemos que o valor ideal é o mesmo para e porque é uma função crescente monotônica para , para que possamos escrever . (Lembre-se, queremos maximizar a probabilidade , para que o ideal tenha o mais .) $\theta^*$ $\log \mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\log(x)$ $x \in \mathbb{R}^+$ $\log \mathcal{L}(\theta) < \log\mathcal{L}(\theta^*)$ $\theta^*$ $\mathcal{L}(\theta^*)$

Algumas fontes omitem o da entropia cruzada. Claramente, isso altera apenas o valor de , mas não a localização dos ótimos; portanto, de uma perspectiva de otimização, a distinção não é importante. O sinal negativo, no entanto, é obviamente importante, pois é a diferença entre maximizar e minimizar! $\frac{1}{n}$ $L(\theta)$

— Sycorax diz restabelecer Monica
fonte