Respostas:
Na verdade não.
A questão, como tal, é um pouco geral e mistura duas coisas que não estão realmente relacionadas. Sobreajuste geralmente significa a qualidade oposta a ser uma descrição generalizada; no sentido de que uma rede com excesso de equipamento (ou com excesso de treinamento) terá menos poder de generalização. Essa qualidade é determinada principalmente pela arquitetura da rede, pelo treinamento e pelo procedimento de validação. Os dados e suas propriedades são inseridos apenas como "algo em que o procedimento de treinamento acontece". Isso é mais ou menos "conhecimento de livros de texto"; você pode tentar "Uma introdução à aprendizagem estatística", de James, Witten, Hastie e Tibshirani. Ou "Pattern Recognition", de Bishop (meu livro favorito de todos os tempos sobre o tema geral). Ou "Reconhecimento de Padrões e Aprendizado de Máquina", também de Bishop.
Para a correlação em si: Considere o espaço de entrada com uma determinada dimensão. Não importa qual transformação você use, a dimensionalidade permanecerá a mesma - a álgebra linear diz isso. Em um caso, a base fornecida será completamente não correlacionada - é isso que você obtém, quando correlaciona as variáveis, ou simplesmente aplica PAT (Principle Axis Transformation). Pegue qualquer livro de álgebra linear para isso.
Como uma rede neural com uma arquitetura apropriada pode modelar qualquer função (!), Você pode assumir com segurança que ela também pode modelar o PAT e depois fazer o que também deve fazer - por exemplo, classificação, regressão etc.
Você também pode considerar a correlação um recurso, que deve fazer parte da descrição da rede neural, pois é uma propriedade dos dados. A natureza da correlação não é realmente importante, a menos que seja algo que não deva fazer parte dos dados. Este seria realmente um tópico diferente - você deve modelar ou quantificar algo como ruído na entrada e prestar contas.
Então, no resumo não. Dados correlatos significa que você deve trabalhar mais para tornar o tratamento de dados tecnicamente mais simples e mais eficaz. O sobreajuste pode ocorrer, mas não acontecerá porque há dados correlatos.
O querubim está correto em relação à declaração de excesso de ajuste. No entanto, acho que a discussão de recursos altamente correlacionados e a RNA simplifica demais o problema.
Sim, é verdade, em teoria, que uma RNA pode aproximar qualquer função. No entanto, na prática, não é uma boa ideia incluir vários recursos altamente correlacionados. Fazer isso introduzirá muitas redundâncias no modelo. A inclusão de tais despedimentos introduzirá complexidades desnecessárias e, ao fazê-lo, poderá aumentar o número de mínimos locais. Dado que a função de perda de uma RNA não é inerentemente suave, a introdução de rugosidade desnecessária não é uma ótima idéia.