Eu não acho que haja motivo para mergulhar na complexidade de DFT / FFT / IIR / FIR e wavelets sem primeiro entender o que é o áudio fundamentalmente e quais são as várias maneiras de representar o áudio digitalmente.
O que é o áudio em geral (no ar, não na água ou em outros materiais):
- O áudio é composto de ondas de pressão sonora
- Causam compressão e rarefação do ar
- Essas ondas se propagam para fora do ponto de origem
- As ondas podem interferir umas nas outras, causando picos e depressões
- As ondas podem ser absorvidas e refletidas pelos materiais
Como o áudio é representado eletricamente:
- Um microfone e um pré-amplificador convertem as ondas de pressão sonora em um sinal elétrico
- Normalmente, este sinal tem uma tensão positiva e negativa (como tensões CA)
- As fitas magnéticas armazenam essas diferenças à medida que aparecem, daí o termo analógico
- A saturação ocorre quando a força do sinal de entrada é igual aos limites do sistema (mais aumentos de tensão não podem ser representados com precisão)
- O recorte ocorre quando o sinal de entrada é mais alto do que o representado pelo sistema, de modo que o sinal fica cortado (ou limitado nas extremidades)
Como o áudio é representado digitalmente:
- O áudio deve primeiro ser amostrado usando um ADC (conversor analógico para digital)
- A amostragem consiste em medir eletricamente um sinal de áudio periodicamente
- Esse período é chamado de taxa de amostragem e determina a frequência mais alta que pode ser representada (limite de nyquist)
- O limite nyquist é a taxa de amostragem / 2 (quanto mais próximo do limite, mais mal representado o sinal fica)
- O intervalo de bits determina o nível de ruído (-96dB para 16 bits vs -48dB para 8 bits)
- Uma única amostra de áudio de 16 bits pode ser um valor (assinado) entre -32768 e 32767 (isso pode representar tanto o balanço negativo quanto o positivo do sinal analógico)
- Há apenas 8 bits permitidos por byte (em termos de armazenamento do computador), portanto uma amostra de 16 bits deve ser representada por pelo menos 2 bytes
- A ordem em que esses bytes são armazenados é chamada de tipo endian (grande ou pequeno)
- Amostras estéreo requerem uma amostra separada para cada canal, uma para a esquerda e outra para a direita
Que maneiras diferentes são usadas para armazenar áudio digital:
- PCM (código de pulso modulado) é a maneira mais comum e não compactada de armazenar áudio digitalmente
- Existem muitas compactação para reduzir a quantidade de dados utilizados, algumas sem perdas, outras com perdas
- Os arquivos WAV não são compactados e podem ser mono ou estéreo (amostras intercaladas)
- Os arquivos MP3 são compactados, com perdas e empregam psicoacústica para obter taxas de compactação de dados muito altas
- Até o menor intervalo de bits (1 bit) pode ser útil, dependendo do uso, geralmente cartões de presente que reproduzem áudio armazenado como 1 bit
Como se familiarizar com o áudio no mundo digital:
- Faça e faça mais! Baixe um programa como o audacity e crie diferentes arquivos de áudio usando diferentes taxas de amostragem e intervalos de bits
- Crie tons de seno / triangular / quadrado e dente de serra e ouça as diferenças
- Aprenda a ouvir a diferença entre tipos, como um arquivo de 8 bits 10KHz e um arquivo de 16 bits 44.1KHz (qualidade do CD)
- Experimente filtros passa-alto / passa-baixo / passa-banda e ouça as diferenças
- Empurre sinais além do limite de saturação para entender como o recorte afeta o sinal de áudio
- Aplique envelopes aos sinais se o seu software tiver esse recurso
- Existe uma diferença entre distorção inarmônica e harmônica, experimento com ambos
- Use um espectrograma (FFT) para ver esses e outros sinais para se familiarizar com eles
- Use gráficos lineares e logarítmicos para ver as diferenças
- Diminuir ou diminuir a amostragem de sinais e ouvir como isso afeta o áudio
- Use métodos de pontilhamento diferentes (ao converter faixas de bits) e ouça as diferenças
Esperamos que isso lhe dê uma idéia do que é o áudio representado digitalmente e como são as diferenças antes de tentar qualquer DSP. É sempre mais fácil saber que algo está errado com sua análise FFT, se você pode reconhecer que inseriu um sinal de 8 bits versus um sinal de 16 bits, por exemplo, ou que a taxa de amostragem foi corrompida por um erro de cálculo incorreto em uma transformação.