Sim, isso é possível tratando o áudio como uma sequência em uma Rede Neural Recorrente (RNN) . Você pode treinar um RNN contra um alvo que esteja correto no final de uma sequência ou até prever outro deslocamento de sequência da entrada.
Observe, no entanto, que há um pouco para aprender sobre as opções que vão para a construção e o treinamento de uma RNN , que você ainda não estudou enquanto olha para redes de feed-forward em camadas mais simples. As RNNs modernas fazem uso de projetos de camadas que incluem portas de memória - as duas arquiteturas mais populares são LSTM e GRU, e adicionam parâmetros mais treináveis em cada camada, pois as portas de memória precisam aprender pesos além dos pesos entre e dentro da camada.
Os RNNs são usados extensivamente para prever sequências de áudio que já foram processadas no MFCC ou em conjuntos de recursos semelhantes, porque eles podem manipular dados sequenciados como entrada e / ou saída, e esse é um recurso desejável ao lidar com dados de comprimento variável, como palavras faladas música etc.
Algumas outras coisas dignas de nota:
As RNNs podem funcionar bem para sequências de dados de tamanho variável e onde existe uma dimensão bem definida sobre a qual as sequências evoluem. Mas eles são menos bem adaptados para conjuntos de recursos de tamanho variável, onde não há ordem ou sequência clara.
As RNNs podem obter resultados de ponta para processamento de sinal, PNL e tarefas relacionadas, mas somente quando há uma quantidade muito grande de dados de treinamento. Outros modelos mais simples podem funcionar tão bem ou melhor se houver menos dados.
Para o problema específico de gerar MFCCs a partir de amostras de áudio não processadas: Embora seja possível criar um RNN que preveja os recursos da MFCC a partir do áudio não processado, isso pode exigir algum esforço e experimentação para se adequar, além de exigir muito poder de processamento. um RNN poderoso o suficiente para lidar com seqüências muito longas com taxas normais de amostra de áudio. Embora a criação de MFCC a partir de áudio bruto usando a abordagem padrão iniciada pela FFT seja muito mais simples, é garantido que seja preciso.