Os dados de entrada correlacionados levam ao sobreajuste das redes neurais?

13

Na minha opinião, os dados de entrada correlacionados devem levar ao sobreajuste nas redes neurais, porque a rede aprende a correlação, por exemplo, ruído nos dados.

Isso está correto?

correlation neural-networks overfitting

— Peter234
fonte

11

Na verdade não.

A questão, como tal, é um pouco geral e mistura duas coisas que não estão realmente relacionadas. Sobreajuste geralmente significa a qualidade oposta a ser uma descrição generalizada; no sentido de que uma rede com excesso de equipamento (ou com excesso de treinamento) terá menos poder de generalização. Essa qualidade é determinada principalmente pela arquitetura da rede, pelo treinamento e pelo procedimento de validação. Os dados e suas propriedades são inseridos apenas como "algo em que o procedimento de treinamento acontece". Isso é mais ou menos "conhecimento de livros de texto"; você pode tentar "Uma introdução à aprendizagem estatística", de James, Witten, Hastie e Tibshirani. Ou "Pattern Recognition", de Bishop (meu livro favorito de todos os tempos sobre o tema geral). Ou "Reconhecimento de Padrões e Aprendizado de Máquina", também de Bishop.

Para a correlação em si: Considere o espaço de entrada com uma determinada dimensão. Não importa qual transformação você use, a dimensionalidade permanecerá a mesma - a álgebra linear diz isso. Em um caso, a base fornecida será completamente não correlacionada - é isso que você obtém, quando correlaciona as variáveis, ou simplesmente aplica PAT (Principle Axis Transformation). Pegue qualquer livro de álgebra linear para isso.

Como uma rede neural com uma arquitetura apropriada pode modelar qualquer função (!), Você pode assumir com segurança que ela também pode modelar o PAT e depois fazer o que também deve fazer - por exemplo, classificação, regressão etc.

Você também pode considerar a correlação um recurso, que deve fazer parte da descrição da rede neural, pois é uma propriedade dos dados. A natureza da correlação não é realmente importante, a menos que seja algo que não deva fazer parte dos dados. Este seria realmente um tópico diferente - você deve modelar ou quantificar algo como ruído na entrada e prestar contas.

Então, no resumo não. Dados correlatos significa que você deve trabalhar mais para tornar o tratamento de dados tecnicamente mais simples e mais eficaz. O sobreajuste pode ocorrer, mas não acontecerá porque há dados correlatos.

— querubim
fonte

Desculpe, mas ainda não entendi o porquê. Também a minha dúvida é um pouco genérica. Eu estava procurando uma resposta para "Os dados de entrada correlacionados podem ser prejudiciais para as redes neurais?". Aqui você afirma: "você pode assumir com segurança que ele também pode modelar o PAT". Mas como você está fazendo essa suposição. E então minha pergunta de acompanhamento é o que acontece se a arquitetura neural não falha ao modelar o PAT?

— Byestorm

@bytestorm: sua primeira pergunta é diferente da original. A entrada correlacionada pode limitar o desempenho da sua RNA (assim como em outros métodos). Mas não é uma propriedade inerente de uma RNA. Quanto à segunda pergunta, é menos uma suposição, mas apenas uma explicação exemplar por que as RNAs poderiam modelar o PAT. Na prática, eu não faria assim, nem recomendaria fazer isso.

— querubim

6

O querubim está correto em relação à declaração de excesso de ajuste. No entanto, acho que a discussão de recursos altamente correlacionados e a RNA simplifica demais o problema.

Sim, é verdade, em teoria, que uma RNA pode aproximar qualquer função. No entanto, na prática, não é uma boa ideia incluir vários recursos altamente correlacionados. Fazer isso introduzirá muitas redundâncias no modelo. A inclusão de tais despedimentos introduzirá complexidades desnecessárias e, ao fazê-lo, poderá aumentar o número de mínimos locais. Dado que a função de perda de uma RNA não é inerentemente suave, a introdução de rugosidade desnecessária não é uma ótima idéia.

— Jacob H
fonte