Estou treinando uma rede neural para classificação de áudio.
Eu o treinei no conjunto de dados UrbanSound8K (Modelo1) e depois quis avaliar como diferentes níveis de ruído adicionado às entradas influenciavam a precisão da previsão. Precisão da linha de base Modelo1 = 65%
Como esperado, níveis mais altos de ruído resultaram em menor precisão.
Então, decidi realizar o aumento de dados com ruído (Modelo2) . Então, peguei o conjunto de dados e o dupliquei com os mesmos arquivos, mas adicionando ruído rosa (+0 dB SNR) a eles.
Como esperado (por mim), a precisão geral aumentou (0,5%), e a rede tornou-se mais robusta à corrupção de ruído das entradas.
Contudo! Uma coisa que eu não esperava era que agora a rede reduziu sua precisão ao prever apenas entradas não corrompidas com ruído (entradas de validação). De alguma forma, ele se super adaptou às entradas limpas, reduzindo assim a precisão da previsão nesses áudios.
Assim, em números, o Model2 prevê com 69% de precisão nas entradas barulhentas (não necessariamente o mesmo ruído com o qual foi treinado) e 47% de precisão nas entradas limpas.
Existe alguma explicação ou intuição para esse resultado?
Eu esperava que a rede, agora com mais e mais variados dados de treinamento, aprendesse recursos mais significativos. Acho que é mais difícil se adaptar demais às entradas barulhentas, mas ainda não entendo por que ela se ajustou principalmente às entradas limpas.
------------------------------------------------- EDITAR 1 ------------------------------------------------- ---------------
Outra informação que pode ser útil:
Mesmo ao avaliar o Model2 em entradas barulhentas com muito pouco ruído, a rede ainda funciona muito melhor do que em apenas entradas limpas (que são muito parecidas com as entradas com pouco ruído para nossos ouvidos)