O teorema da aproximação universal para redes neurais vale para qualquer função de ativação (sigmóide, ReLU, Softmax, etc ...) ou é limitado a funções sigmóides?
Atualização: Como o shimao aponta nos comentários, ele não se aplica a absolutamente nenhuma função. Então, para qual classe de funções de ativação ele se aplica?