Extração de recursos para classificação de som

15

Estou tentando extrair recursos de um arquivo de som e classificá-lo como pertencendo a uma categoria específica (por exemplo: latido de cachorro, motor de veículo etc.). Gostaria de esclarecer as seguintes coisas:

1) Isso é factível? Existem programas que reconhecem a fala e diferenciam diferentes tipos de latidos de cães. Mas é possível ter um programa que possa receber uma amostra de som e apenas dizer que tipo de som é esse? (Suponha que haja um banco de dados contendo muitas amostras de som para referência). As amostras de som de entrada podem ser um pouco barulhentas (entrada de microfone).

2) Presumo que o primeiro passo seja a extração de recursos de áudio. Este artigo sugere extrair MFCCs e alimentá-los com um algoritmo de aprendizado de máquina. MFCC é suficiente? Existem outros recursos geralmente usados para classificação de som?

Obrigado pelo seu tempo.

— Kevin Martin Jose
fonte

15

A longo prazo, é factível - até que ponto? Você verá. Essa tarefa de classificação do som ambiental não é muito bem estudada. Também a escolha do paradigma de aprendizado de máquina é crucial - abordagem estatística ou talvez classificador binário? Você pode começar com GMM, ANN e SVM - eu opto por GMM e ANN.
Sim, a maioria das pessoas está usando o MFCC porque está bem correlacionada com o que as pessoas estão realmente ouvindo e também ninguém surgiu com nada melhor desde então. Você também pode querer adicionar recursos extras, como descritores MPEG-7. A otimização adequada dos recursos deve ser realizada porque, às vezes, você não precisa de muitos recursos, especialmente quando eles não são separáveis. Para mais informações, consulte minhas respostas anteriores:

Extração de recursos do espectro

Extração MFCC

Detecção de sons

— jojek
fonte

Expandirei minha resposta à noite.

— jojek

ainda à espera de resposta expandida ...

— Nithin

À noite ...

— jojek

4

O áudio não verbal (sem falar no meio ambiente) parece ser o irmão mais novo do fluxo principal de tipos de mídia de aprendizado de máquina, como imagens, fala, texto.

Para responder sua pergunta, é possível treinar uma rede para identificar um determinado som? Sim, ele é! Mas é difícil pelas mesmas razões que o aprendizado de máquina é difícil.

No entanto, o que realmente está impedindo o Audio, e por que eu o chamo de irmão mais novo de imagens e fala, é devido à falta de um conjunto de dados rotulado em larga escala. Para Fala, há o TIMIT, para Imagens, existem vários ImagenNet, CIFAR, Caltech, para Processamento de Texto e Linguagem Natural, existem vastos volumes de literatura, etc.

Que eu saiba, os dois maiores conjuntos de dados de áudio com identificação humana * não-verbal são os conjuntos de dados UrbanSounds e ESC-100, proibitivamente pequenos para abordagens de aprendizado realmente profundas. Existem alguns resultados mistos publicados sobre esses conjuntos de dados usando o ConvNet de duas camadas.

Os recursos do MFCC são uma representação de recursos de linha de base bem estabelecida no reconhecimento de fala e análise de áudio em geral. Mas existem muitas outras representações de recursos de áudio! Este artigo fornece uma boa taxonomia dos tipos de recursos de áudio.

O trabalho mais emocionante sobre a classificação de som que vi recentemente está sendo realizado por algumas pessoas do DeepMind, chamado WaveNet .

— beeCwright
fonte

3

Aqui está uma solução para a classificação de som para 10 classes: latidos de cães, buzina de carro, crianças brincando etc. É baseada na biblioteca de fluxo de tensão usando redes neurais. Os recursos são extraídos convertendo clipes de som em espectrograma

— abggcv
fonte

3

simplesmente vincular não é bom o suficiente como resposta.

— Gilles

Sim, expanda o que o link diz.

— Peter K.

2

Mas obrigado pelo link, no entanto.

— Kevin Martin Jose

Na verdade, eu também estou tentando entender mais sobre as técnicas usadas no tutorial fornecido no link. Meu conhecimento em sinais sonoros é muito limitado, pois sou um especialista em visão computacional e processamento de imagens. Vou tentar elaborar mais sobre a resposta quando tiver um melhor entendimento.

— Abggcv 24/10/16

1

Sim, é extremamente factível. Embora os RNs sejam excelentes nesse tipo de treinamento de classificação, eles podem até não ser necessários - com um conjunto de recursos bem escolhido, apenas os algoritmos clássicos de agrupamento, como um modelo de mistura gaussiano ou análise de componentes principais, provavelmente também . As bibliotecas modernas podem corrigir esse problema cerca de 95% das vezes ou mais.

— johnwbyrd
fonte