Por que a função de custo das redes neurais não é convexa?

Existe uma discussão semelhante aqui (a função de custo da rede neural não é convexa? ), Mas não consegui entender os pontos nas respostas e minha razão para perguntar novamente, esperando que isso esclareça alguns problemas:

Se estou usando soma de função de custo diferença de quadrados, sou em última análise, optimizando algo da forma em que é o valor real da etiqueta durante a fase de formação e é a etiqueta prevista valor. Como isso tem uma forma quadrada, essa deve ser uma função de custo convexa. Então, o que poderia torná-lo não convexo em um NN? $\Sigma_{i=1}^{N}(y_i - \hat{y_i})^2$ $y$ $\hat{y}$

— Luca
fonte

trivialmente, é porque

, e, em geral, não há garantia de que uma função arbitrária será convexa

\hat{y} = f (x)

$\hat{y} = f(x)$

— generic_user

é, de facto convexa em . Mas se $\sum_i (y_i- \hat y_i)^2$ $\hat y_i$ pode não ser convexo em , que é a situação com a maioria dos modelos não lineares, e nós realmente se preocupam com convexidade em porque é isso que nós estamos otimizando a função de custo sobre. $\hat y_i = f(x_i ; \theta)$ $\theta$ $\theta$

Por exemplo, vamos considerar uma rede com 1 camada oculta de unidades e uma camada de saída linear: nossa função de custo é onde e $N$

g (α, W) = \sum_{i} {(y_{i} - α_{i} σ (W x_{i}))}^{2}

$g(\alpha, W) = \sum_i \left(y_i - \alpha_i\sigma(Wx_i)\right)^2$

x_{i} \in R^{p}

$x_i \in \mathbb R^p$

(e estou omitindo termos de viés por simplicidade). Isso não é necessariamente convexo quando visto como uma função de

W \in R^{N \times p}

$W \in \mathbb R^{N \times p}$

(α, W)

$(\alpha, W)$ (dependendo de

: se uma função de ativação linear for usada, ela ainda poderá ser convexa). E quanto mais profunda nossa rede fica, menos convexas são as coisas.

σ

$\sigma$

$h : \mathbb R \times \mathbb R \to \mathbb R$ $h(u, v) = g(\alpha, W(u, v))$ $W(u,v)$ $W$ $W_{11}$ $u$ $W_{12}$ $v$

$n=50$ $p=3$ $N=1$ $x$ $y$ $\mathcal N(0,1)$

Aqui está o código R que eu usei para fazer essa figura (embora alguns dos parâmetros estejam com valores ligeiramente diferentes agora do que quando eu fiz isso para que eles não sejam idênticos):

costfunc <- function(u, v, W, a, x, y, afunc) {
  W[1,1] <- u; W[1,2] <- v
  preds <- t(a) %*% afunc(W %*% t(x))
  sum((y - preds)^2)
}

set.seed(1)
n <- 75  # number of observations
p <- 3   # number of predictors
N <- 1   # number of hidden units


x <- matrix(rnorm(n * p), n, p)
y <- rnorm(n)  # all noise
a <- matrix(rnorm(N), N)
W <- matrix(rnorm(N * p), N, p)

afunc <- function(z) 1 / (1 + exp(-z))  # sigmoid

l = 400  # dim of matrix of cost evaluations
wvals <- seq(-50, 50, length = l)  # where we evaluate costfunc
fmtx <- matrix(0, l, l)
for(i in 1:l) {
  for(j in 1:l) {
    fmtx[i,j] = costfunc(wvals[i], wvals[j], W, a, x, y, afunc)
  }
}

filled.contour(wvals, wvals, fmtx,plot.axes = { contour(wvals, wvals, fmtx, nlevels = 25, 
                                           drawlabels = F, axes = FALSE, 
                                           frame.plot = FALSE, add = TRUE); axis(1); axis(2) },
               main = 'NN loss surface', xlab = expression(paste('W'[11])), ylab = expression(paste('W'[12])))

— jld
fonte

Resposta fantástica; Acho que, independentemente das funções de ativação, sempre podemos encontrar alguma permutação dos pesos / unidades ocultas, o que geralmente significa não-convexidade

— information_interchange

@information_interchange obrigado, e acho que você está absolutamente certo, a resposta que o OP vinculou às conversas sobre essa abordagem também

— jld

ótima resposta, mas se usarmos o MAE em vez do MSE, não entendo por que não será convexo, a composição de uma função convexa e não decrescente é convexa, portanto, se tivermos o MAE, ainda devemos ter a função convexa sobre W.

— Panda