Eu entendo que, dado um conjunto de observações independentes o Estimador de Máxima Verossimilhança (ou, equivalentemente, o MAP com flat / uniform anterior) que identifica os parâmetros \ mathbf {θ} que produzem a distribuição do modelo p_ {model} \ esquerda (\, \ cdot \,; \ mathbf {θ} \ right) que melhor corresponder a essas observações seráS = { o ( 1 ) , . . . , o ( m ) }
ou, mais convenientemente
e veja o papel que pode desempenhar na definição de uma função de perda para redes neurais profundas de várias classes, na qual corresponde aos parâmetros treináveis da rede (por exemplo, e as observações são os pares de ativações de entrada e os rótulos de classe corretos correspondentes , = { }, usando
O que não entendo é como isso se relaciona à chamada "entropia cruzada" da saída correta (vetorizada), , e às ativações de saída correspondentes da rede, que é usado na prática, quando a medição de erro / perda durante o treinamento . Existem vários problemas relacionados:
Ativações "como probabilidades"
Uma das etapas para estabelecer o relacionamento entre o MLE e a entropia cruzada é usar as ativações de saída "como se" fossem probabilidades. Mas não está claro para mim que eles são, ou pelo menos que eles são.
Ao calcular o erro de treinamento - especificamente, ao chamá-lo de "perda de entropia cruzada" - presume-se que (após normalizar as ativações para somar 1)
ou
para que possamos escrever
e assim
Mas, embora isso certamente torne uma probabilidade (na medida em que algo existe), ele não impõe restrições às outras ativações.
O realmente ser considerado PMF nesse caso? Existe algo que faça com que não seja de fato probabilidades (e apenas "goste" delas) )?
Limitação à categorização
O passo crucial acima para equiparar o MLE à entropia cruzada se baseia inteiramente na estrutura "quente" de que caracteriza um problema de aprendizado de classe múltipla (etiqueta única). Qualquer outra estrutura para o tornaria impossível passar de para .
A equação de MLE e a minimização de entropia cruzada estão limitadas aos casos em que são "quentes"?
Diferentes probabilidades de treinamento e previsão
Durante a previsão, quase sempre é o caso de
que resulta em probabilidades de previsão corretas diferentes das probabilidades aprendidas durante o treinamento, a menos que seja confiável que
Isso é sempre confiável? É provável que seja pelo menos aproximadamente verdade? Ou existe algum outro argumento que justifique essa equação do valor da ativação aprendida na posição do rótulo com a probabilidade de que o valor máximo das ativações aprendidas ocorra lá?
Entropia e teoria da informação
Mesmo assumindo que as preocupações acima são abordadas e as ativações são PMFs válidas (ou podem ser tratadas de maneira significativa como tal), de modo que o papel desempenhado pela entropia cruzada na computação seja sem problemas, não está claro para por que é útil ou significativo falar sobre a entropia do , já que a entropia de Shanon se aplica a uma tipo de codificação , que não é a que está sendo usada no treinamento da rede.
Qual o papel da entropia teórica da informação na interpretação da função de custo, em vez de simplesmente fornecer uma ferramenta (na forma de entropia cruzada) para calcular uma (que corresponde ao MLE)?
softmax_cross_entropy_with_logits
fazem: calculam e, portanto, que define uma rede "projetada para" produzir probabilidades (pelo menos no local do rótulo). Não?