O teorema da aproximação universal para redes neurais vale para qualquer função de ativação?

8

O teorema da aproximação universal para redes neurais vale para qualquer função de ativação (sigmóide, ReLU, Softmax, etc ...) ou é limitado a funções sigmóides?

Atualização: Como o shimao aponta nos comentários, ele não se aplica a absolutamente nenhuma função. Então, para qual classe de funções de ativação ele se aplica?

neural-networks approximation

— Skander H.
fonte

1

Eu acredito que vale para todos aqueles que você listou, mas não vale para qualquer função de ativação arbitrária (considere f (x) = 0)

— Shimao

Leia o artigo de Cybenko (1989). A função tem que ser compactos necessidades ou seja para ser definido em subconjuntos compactos de R ^ n

— Snehanshu Saha

Se houver muitas descontinuidades finitas, ele também poderá ser tratado com a adição de mais camadas ocultas. Também funciona para o SBAF.

— Snehanshu Saha 3/09/19

Isso faz pouco sentido, porque todas as funções definidas em são definidas em subconjuntos compactos!

R^{n}

$\mathbb{R}^n$

— whuber

7

O artigo da wikipedia possui uma declaração formal.

Seja uma função não constante, limitada e contínua. $\varphi$

— Matthew Drury
fonte

8

Isso abrange sigmóide e softmax, mas não ReLU. De acordo com este documento, a propriedade também vale para algumas funções ilimitadas como ReLU e outras.

— jodag

3

Redes de feedforward multicamadas é uma referência publicada que aborda o problema. As funções de ativação polinomial não possuem a propriedade de aproximação universal.

O NN de pré-impressão com funções de ativação ilimitadas abrange muitas funções de ativação. Olha apenas para a camada oculta NN única. É pesado na análise de Fourier.

Enfatizo que a segunda referência é uma pré-impressão, porque não posso garantir sua precisão. Leshno et alt 1993 é uma publicação revisada.

— VictorZurkowski
fonte

2

O artigo de Kurt Hornik, de 1991, "Approximation Capabilities of Multilayer Feedforward Networks", prova que "as redes de feedforward padrão multicamadas com apenas uma camada oculta e função arbitrária de ativação limitada e não constante são aproximadores universais em relação aos critérios de desempenho , para medidas arbitrárias do ambiente de entrada finita , desde que apenas muitas unidades ocultas estejam disponíveis. " Em outras palavras, a hipótese de que a função de ativação é limitada e não constante é suficiente para aproximar quase qualquer função, pois podemos usar quantas unidades ocultas quisermos na rede neural. O documento deve estar disponível aqui: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdf $L^P(\mu)$ $\mu$

— matemático
fonte