Os MFCCs são o método ideal para representar música em um sistema de recuperação?

Uma técnica de processamento de sinal, o Mel frequency Cepstrum , é freqüentemente usada para extrair informações de uma peça musical para uso em tarefas de aprendizado de máquina. Este método fornece um espectro de potência de curto prazo, e os coeficientes são usados como entrada.

Ao projetar sistemas de recuperação de música, esses coeficientes são considerados característicos de uma peça (obviamente não necessariamente únicos, mas distintos). Existem características que melhor se adequariam ao aprendizado com uma rede? Características variáveis no tempo, como a progressão dos graves da peça usada em algo como uma rede Elman, funcionariam com mais eficiência?

Quais características formariam um conjunto suficientemente extenso sobre o qual a classificação poderia ocorrer?

— jonsca
fonte

Você está trabalhando na recuperação, onde procura qualidades únicas de um determinado clipe de áudio? ou você deseja identificar músicas semelhantes?

— Andrew Rosenberg

@AndrewRosenberg Mais ao longo da linha de identificação de músicas semelhantes.

— jonsca

(Anos depois), existem muitas maneiras de mexer no MFCC; Kinunnen et al., Verificações de distorção de frequência e alto-falante robusto: uma comparação de representações alternativas da escala de mel 2013, 5p, usam 60 coeficientes. E otimizar o que? Em qual banco de dados não aberto? Então, eu diria (não especialista) que a pergunta é muito ampla para ser respondida.

— Denis

@denis Obrigado pela informação. Isso veio do malfadado Machine Learning Beta (a primeira vez). Eu aprecio que isso seja um pouco vago.

— jonsca

Nós fizemos um pouco de trabalho nisso em um ponto. O conjunto de recursos que extraímos é apresentado neste documento do workshop do NIPS . Devo admitir que não conseguimos replicar os resultados de alguns outros autores no campo, embora houvesse algumas dúvidas sobre os conjuntos de dados usados neles (observe que os conjuntos de dados usados pelos autores nesse campo tendem a ser escolhidos a dedo e não liberados ao público, por razões de direitos autorais, embora isso nem sempre seja o caso). Essencialmente, eles eram todos recursos espectrais de curto prazotambém com coeficientes de regressão automática. Estávamos analisando a classificação de gênero, que sabemos que pode ser feita por seres humanos (embora não com uma precisão maravilhosa e sem concordância consistente ...) em prazos muito curtos (<1s), que valida o uso de recursos de curto prazo . Se você estiver interessado em fazer coisas mais complicadas do que a classificação típica de gênero / artista / álbum / produtor, poderá precisar de mais recursos de longo alcance; caso contrário, esses recursos espectrais de curto prazo tendem a apresentar melhor desempenho.

— tdc
fonte

Qual era o objetivo de lançar os coeficientes de RA?

— jonsca

@jonsca Como estávamos usando métodos de reforço, que funcionam combinando muitos alunos "fracos", decidimos usar todos os recursos que poderiam ser facilmente calculados e que poderiam trazer algum benefício. Tudo o que é necessário para um aluno fraco para que ele seja útil é que ele pode ser classificado em níveis maiores que o acaso. Os coeficientes de RA são equivalentes a uma compressão do envelope espectral, o que dá uma noção da complexidade das informações de curto prazo da música dentro dessa janela, embora apenas muito vagamente.

— tdc 13/02/12

@tdc, "conjuntos de dados tendem a não ser divulgados ao público ...": você conhece algum conjunto de dados on-line gratuito de fala, com fonemas rotulados?

— Denis

@denis o único que eu conheço é esse: orange.biolab.si/datasets/phoneme.htm

— tdc

@ tdc, obrigado, mas são apenas 11 vogais do Elements of stat learning, ~ 1000 x 11 recursos (LPC antigo).

— Denis