o que faz das redes neurais um modelo de classificação não linear?

18

Estou tentando entender o significado matemático dos modelos de classificação não linear:

Acabei de ler um artigo falando sobre redes neurais sendo um modelo de classificação não linear.

Mas eu apenas percebo que:

A primeira camada:

$h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2}$

$h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2}$

A camada subsequente

$y=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y}$

Pode ser simplificado para

$=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y}$

$=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y})$

Uma rede neural de duas camadas É apenas uma regressão linear simples

$=b^′+x_1∗W_1^′+x_2∗W_2^′$

Isso pode ser mostrado para qualquer número de camadas, pois a combinação linear de qualquer número de pesos é novamente linear.

O que realmente torna uma rede neural um modelo de classificação não linear?
Como a função de ativação afetará a não linearidade do modelo?
Você pode me explicar?

neural-networks nonlinear-regression nonlinear

— Alvaro Joao
fonte

18

Acho que você esquece a função de ativação nos nós da rede neural, que não é linear e tornará todo o modelo não linear.

Na sua fórmula não está totalmente correto, onde,

h_{1} \neq w_{1} x_{1} + w_{2} x_{2}

$h_1 \neq w_1x_1+w_2x_2$

mas

h_{1} = sigmoid (w_{1} x_{1} + w_{2} x_{2})

$h_1 = \text{sigmoid}(w_1x_1+w_2x_2)$

onde sigmoid funciona assim, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

Vamos usar um exemplo numérico para explicar o impacto da função sigmóide, suponha que você tenha e . Por outro lado, suponha que você tenha , e é quase o mesmo que , que não é linear. $w_1x_1+w_2x_2=4$ $\text{sigmoid}(4)=0.99$ $w_1x_1+w_2x_2=4000$ $\text{sigmoid}(4000)=1$ $\text{sigmoid}(4)$

Além disso, acho que o slide 14 deste tutorial pode mostrar exatamente onde você cometeu um erro. Para por favor, não o otuput não é -7,65, mas $H_1$ $\text{sigmoid}(-7.65)$

— Haitao Du
fonte

1

Como a função de ativação afetará a não linearidade do modelo? Você pode me explicar?

— Alvaro Joao

3

Você está certo de que várias camadas lineares podem ser equivalentes a uma única camada linear. Como as outras respostas disseram, uma função de ativação não linear permite a classificação não linear. Dizer que um classificador é não linear significa que ele tem um limite de decisão não linear. O limite de decisão é uma superfície que separa as classes; o classificador preverá uma classe para todos os pontos em um lado do limite de decisão e outra classe para todos os pontos no outro lado.

$y$ $h$ $w$ $b$

y = σ (h w + b)

$y = \sigma(hw + b)$

$\sigma$ $1$ $c$

c = {\begin{array}{cl} 0 & y \leq 0.5 \\ 1 & y > 0.5 \end{array}

$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right .$

$hW + b$ $y$

Eu disse anteriormente que o limite de decisão não é linear, mas um hiperplano é a própria definição de um limite linear. Mas, estamos considerando o limite como uma função das unidades ocultas imediatamente antes da saída. As ativações da unidade oculta são uma função não linear das entradas originais, devido às camadas ocultas anteriores e suas funções de ativação não linear. Uma maneira de pensar sobre a rede é que ela mapeia os dados de maneira não linear em algum espaço de recurso. As coordenadas neste espaço são dadas pelas ativações das últimas unidades ocultas. A rede então executa a classificação linear neste espaço (regressão logística, neste caso). Também podemos pensar no limite de decisão em função das entradas originais. Esta função será não linear, como conseqüência do mapeamento não linear de entradas para ativações de unidades ocultas.

Este post do blog mostra algumas figuras e animações interessantes desse processo.

— user20160
fonte

1

A não linearidade vem da função de ativação sigmóide, 1 / (1 + e ^ x), onde x é a combinação linear de preditores e pesos que você referenciou na sua pergunta.

A propósito, os limites dessa ativação são zero e um porque o denominador fica tão grande que a fração se aproxima de zero ou e ^ x se torna tão pequeno que a fração se aproxima de 1/1.

— Ryan Zotti
fonte