Como escolher os recursos para uma rede neural?

Eu sei que não há uma resposta clara para essa pergunta, mas vamos supor que eu tenha uma enorme rede neural, com muitos dados e que eu queira adicionar um novo recurso na entrada. A "melhor" maneira seria testar a rede com o novo recurso e ver os resultados, mas existe um método para testar se o recurso É ÚLTIMO PROVÁVEL? Como medidas de correlação ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) etc?

— Marcodena
fonte

Uma correlação não aleatória pode ser um indicador de que o recurso é útil. Mas não tenho tanta certeza sobre testes de pré-treinamento que possam descartar idéias. O artigo que você vincula deixa claro que correlações não lineares não são bem detectadas pelos testes disponíveis, mas uma rede neural tem chance de encontrá-los e usá-los.

— Neil Slater

Respostas:

Uma correlação muito forte entre o novo recurso e um recurso existente é um sinal bastante bom de que o novo recurso fornece pouca informação nova. Uma baixa correlação entre o novo recurso e os recursos existentes é provavelmente preferível.

Uma forte correlação linear entre o novo recurso e a variável prevista é um bom sinal de que um novo recurso será valioso, mas a ausência de uma alta correlação não é necessária, um sinal de um recurso ruim, porque as redes neurais não estão restritas a combinações lineares de variáveis.

Se o novo recurso foi construído manualmente a partir de uma combinação de recursos existentes, considere deixá-lo de fora. A beleza das redes neurais é que pouca engenharia e pré-processamento de recursos são necessários - os recursos são aprendidos por camadas intermediárias. Sempre que possível, prefira os recursos de aprendizado a projetá-los.

— Madison May
fonte

Eu sempre pensei em comparar o valor a prever com os recursos, você está falando sobre correlação entre recursos. A sua resposta é aplicável também ao meu caso? em teoria, devo adicionar apenas novos recursos correlacionados ao valor a prever, certo?

— Marcodena

Essa também é uma métrica valiosa - apenas atualizei minha resposta para resolver isso também.

— Madison May

Em resumo, fortes correlações com o valor a prever é um ótimo sinal, mas uma fraca correlação com o valor a prever não é necessariamente um sinal ruim.

— Madison May

Obrigado. Estou escrevendo um relatório e queria mostrar as correlações lineares / não lineares para justificar os recursos (mesmo antes dos resultados). Isto faz algum sentido? Da sua resposta que eu poderia fazer uma matriz de correlações mas talvez seja nosense

— marcodena

Gostaria de usar correlações não lineares, mas graças ok

— marcodena

Se você estiver usando o sklearn, há uma boa função disponível chamada model.feature_importances_. Experimente o seu modelo / novo recurso e veja se isso ajuda. Também veja aqui e aqui exemplos.

— Aniket
fonte