Estou pensando, implementando e usando o paradigma Extreme Learning Machine (ELM) há mais de um ano, e quanto mais tempo durar, mais duvido que seja realmente uma coisa boa. Minha opinião, no entanto, parece estar em contraste com a comunidade científica, onde - ao usar citações e novas publicações como medida - parece ser um tópico quente.
O ELM foi introduzido por Huang et. al. por volta de 2003. A idéia subjacente é bastante simples: comece com uma rede neural artificial de duas camadas e atribua aleatoriamente os coeficientes na primeira camada. Isso transforma o problema de otimização não linear, que geralmente é tratado por retropropagação, em um problema de regressão linear simples. Mais detalhado, para , o modelo é
Agora, apenas o é ajustado (a fim de minimizar a perda de erro ao quadrado), enquanto os são todos escolhidos aleatoriamente. Como compensação pela perda de graus de liberdade, a sugestão usual é usar um número bastante grande de nós ocultos (isto é, parâmetros livres ).v i k w i
De outra perspectiva (não a geralmente promovida na literatura, que vem do lado da rede neural), todo o procedimento é simplesmente regressão linear, mas uma onde você escolhe suas funções aleatoriamente, por exemplo
(Muitas outras opções além do sigmóide são possíveis para as funções aleatórias. Por exemplo, o mesmo princípio também foi aplicado usando funções de base radial.)
Desse ponto de vista, todo o método se torna quase simplista demais, e é também nesse ponto que começo a duvidar que o método seja realmente bom (... enquanto o seu marketing científico certamente é). Então, aqui estão as minhas questões:
A ideia de varrer o espaço de entrada usando funções de base aleatória é, na minha opinião, boa para dimensões baixas. Em dimensões elevadas, acho que não é possível encontrar uma boa escolha usando seleção aleatória com um número razoável de funções básicas. Portanto, o ELM se degrada em grandes dimensões (devido à maldição da dimensionalidade)?
Você conhece resultados experimentais que apoiam / contradizem essa opinião? No artigo vinculado, há apenas um conjunto de dados de regressão de 27 dimensões (PYRIM), em que o método tem desempenho semelhante aos SVMs (enquanto eu gostaria de ver uma comparação com uma RNA de retropropagação)
De uma maneira mais geral, gostaria de comentar aqui sobre o método ELM.