O custo da entropia cruzada é função para a rede neural convexa?

9

Meu professor provou que a segunda derivada da entropia cruzada é sempre positiva, de modo que a função de custo das redes neurais que usam entropia cruzada é convexa. Isso é verdade? Estou bastante confuso sobre isso, porque sempre aprendi que a função de custo da RNA é não convexa. alguém pode confirmar isso? Muito obrigado! http://z0rch.com/2014/06/05/cross-entropy-cost-function

neural-networks convex

— xuancanh
fonte

5

Link quebrado?

— ebb-earl-co

7

A entropia cruzada de uma família exponencial é sempre convexa. Portanto, para uma rede neural multicamada com entradas , pesos saída , e função de perda $x$ $w$ $y$ $L$

\nabla_{y}^{2} eu

$\nabla^2_y L$

é convexo. Contudo,

\nabla_{W}^{2} eu

$\nabla^2_w L$

não será convexo para os parâmetros da camada intermediária pelas razões descritas por iamonaboat.

— Neil G
fonte

5

O que @ngiann disse, e informalmente, se você permuta os neurônios na camada oculta e faz a mesma permutação nos pesos das camadas adjacentes, a perda não muda.

Portanto, se houver um mínimo global diferente de zero em função dos pesos, ele não poderá ser único, pois a permutação de pesos fornece outro mínimo global. Portanto, a função não é convexa.

A matriz de todas as segundas derivadas parciais (o Hessiano) não é nem semidefinido positivo nem semidefinido negativo. Como a segunda derivada é uma matriz, é possível que não seja uma ou a outra.

— eu estou em um barco
fonte

Se você deseja ser pedante em vez de informal, a definição usual de convexidade de funções não exige um mínimo global único, portanto, a não singularidade dos mínimos não implica em não-convexidade. No entanto, permutar os pesos dessa maneira também não altera a saída real da sua rede; portanto, mesmo sem convexidade, você ainda pode ter a propriedade de que sua função de treinamento converge para a mesma função todas as vezes. Aposto que há uma maneira de quebrar essa simetria para ordenar os pesos sem estragar outras propriedades da função de perda.

— Andrew Wagner

3

Você está certo ao suspeitar que o problema de otimização de RNA da entropia cruzada não será convexo. Nota: estamos falando de uma rede neural com função de ativação não linear na camada oculta. Se você não usar uma função de ativação não linear, sua RNA estará implementando uma função linear e o problema se tornará convexo.

Portanto, a razão pela qual a otimização da entropia cruzada de uma RNA é não convexa é por causa da parametrização subjacente da RNA. Se você usar uma rede neural linear, poderá torná-la convexa (essencialmente parecerá regressão logística, que é um problema convexo).

— ngiann
fonte