Roteiro de aprendizado para iniciantes no processamento de sinais de áudio

13

Gostaria de começar a aprender o processamento do sinal de áudio. Existem inúmeros livros online e artigos acadêmicos, os quais parecem ignorar os fundamentos do tópico.

Gostaria de conhecer um roteiro aproximado, por assim dizer, a seguir para aprender com êxito o processamento do sinal de áudio.

Eu li que o cálculo é o primeiro passo antes de iniciar a análise do sinal.

Parece-me que a análise do sinal de áudio é apenas uma parte do conhecimento geral necessário. Onde outros tópicos são teoria musical, engenharia de áudio e programação.

Se eu puder pedir às pessoas com conhecimento nesta área que sugiram possíveis etapas para entender como analisar e manipular / criar sinais de áudio.

audio

— jarryd
fonte

Concordo que um histórico em cálculo (no mínimo) será importante para que você tenha a chance de entender a matemática que pode encontrar em um texto ou curso de teoria de sinais e sistemas. Eu garantiria que você chegue lá primeiro.

— Jason R

1

Esses slides podem ajudar. Eles obtêm algumas das noções não-matemáticas / de engenharia de processamento e programação de áudio. blog.bjornroche.com/2011/11/…

— Bjorn Roche

17

Eu recomendo dar uma olhada no processamento físico de sinais de áudio do Prof. Julius O. Smith III . Está disponível on-line ou pode ser adquirido através do serviço de impressão sob demanda da Amazon.

Em particular, a descrição na Visão geral da série de livros pode valer a pena.

insira a descrição da imagem aqui

— Peter K.
fonte

9

Eu não acho que haja motivo para mergulhar na complexidade de DFT / FFT / IIR / FIR e wavelets sem primeiro entender o que é o áudio fundamentalmente e quais são as várias maneiras de representar o áudio digitalmente.

O que é o áudio em geral (no ar, não na água ou em outros materiais):

O áudio é composto de ondas de pressão sonora
Causam compressão e rarefação do ar
Essas ondas se propagam para fora do ponto de origem
As ondas podem interferir umas nas outras, causando picos e depressões
As ondas podem ser absorvidas e refletidas pelos materiais

Como o áudio é representado eletricamente:

Um microfone e um pré-amplificador convertem as ondas de pressão sonora em um sinal elétrico
Normalmente, este sinal tem uma tensão positiva e negativa (como tensões CA)
As fitas magnéticas armazenam essas diferenças à medida que aparecem, daí o termo analógico
A saturação ocorre quando a força do sinal de entrada é igual aos limites do sistema (mais aumentos de tensão não podem ser representados com precisão)
O recorte ocorre quando o sinal de entrada é mais alto do que o representado pelo sistema, de modo que o sinal fica cortado (ou limitado nas extremidades)

Como o áudio é representado digitalmente:

O áudio deve primeiro ser amostrado usando um ADC (conversor analógico para digital)
A amostragem consiste em medir eletricamente um sinal de áudio periodicamente
Esse período é chamado de taxa de amostragem e determina a frequência mais alta que pode ser representada (limite de nyquist)
O limite nyquist é a taxa de amostragem / 2 (quanto mais próximo do limite, mais mal representado o sinal fica)
O intervalo de bits determina o nível de ruído (-96dB para 16 bits vs -48dB para 8 bits)
Uma única amostra de áudio de 16 bits pode ser um valor (assinado) entre -32768 e 32767 (isso pode representar tanto o balanço negativo quanto o positivo do sinal analógico)
Há apenas 8 bits permitidos por byte (em termos de armazenamento do computador), portanto uma amostra de 16 bits deve ser representada por pelo menos 2 bytes
A ordem em que esses bytes são armazenados é chamada de tipo endian (grande ou pequeno)
Amostras estéreo requerem uma amostra separada para cada canal, uma para a esquerda e outra para a direita

Que maneiras diferentes são usadas para armazenar áudio digital:

PCM (código de pulso modulado) é a maneira mais comum e não compactada de armazenar áudio digitalmente
Existem muitas compactação para reduzir a quantidade de dados utilizados, algumas sem perdas, outras com perdas
Os arquivos WAV não são compactados e podem ser mono ou estéreo (amostras intercaladas)
Os arquivos MP3 são compactados, com perdas e empregam psicoacústica para obter taxas de compactação de dados muito altas
Até o menor intervalo de bits (1 bit) pode ser útil, dependendo do uso, geralmente cartões de presente que reproduzem áudio armazenado como 1 bit

Como se familiarizar com o áudio no mundo digital:

Faça e faça mais! Baixe um programa como o audacity e crie diferentes arquivos de áudio usando diferentes taxas de amostragem e intervalos de bits
Crie tons de seno / triangular / quadrado e dente de serra e ouça as diferenças
Aprenda a ouvir a diferença entre tipos, como um arquivo de 8 bits 10KHz e um arquivo de 16 bits 44.1KHz (qualidade do CD)
Experimente filtros passa-alto / passa-baixo / passa-banda e ouça as diferenças
Empurre sinais além do limite de saturação para entender como o recorte afeta o sinal de áudio
Aplique envelopes aos sinais se o seu software tiver esse recurso
Existe uma diferença entre distorção inarmônica e harmônica, experimento com ambos
Use um espectrograma (FFT) para ver esses e outros sinais para se familiarizar com eles
Use gráficos lineares e logarítmicos para ver as diferenças
Diminuir ou diminuir a amostragem de sinais e ouvir como isso afeta o áudio
Use métodos de pontilhamento diferentes (ao converter faixas de bits) e ouça as diferenças

Esperamos que isso lhe dê uma idéia do que é o áudio representado digitalmente e como são as diferenças antes de tentar qualquer DSP. É sempre mais fácil saber que algo está errado com sua análise FFT, se você pode reconhecer que inseriu um sinal de 8 bits versus um sinal de 16 bits, por exemplo, ou que a taxa de amostragem foi corrompida por um erro de cálculo incorreto em uma transformação.

— ronnied
fonte

Obrigado pela resposta. Estou ciente dessas coisas e gostaria de entrar no lado da codificação dsp agora.

— jarryd 31/07