Se os humanos conseguem ouvir apenas o som da frequência de até 20 kHz, por que o áudio da música é amostrado em 44,1 kHz?


60

Eu li em alguns lugares que a música é mais amostrada em 44,1 kHz, enquanto que só podemos ouvir até 20 kHz. Por que é isso?


11
As pessoas mais jovens podem ouvir frequências mais altas. Outras técnicas de gravação usam até 48 kHz.
Thorbjørn Ravn Andersen

15
Teorema de Nyquist: você precisa de duas amostras a cada balanço para dizer a frequência de uma onda.
mathreadler

Porque processadores são mais rápidos, a memória é barato, mas bons filtros analógicos ainda são complicados, taxas de amostragem ainda mais altos pode fazer sentido, bem como (96 ou 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen Acho que 48 kHz é comum porque é divisível em 24, 25 e 30 fps usados ​​na produção de vídeo. 24 não entra uniformemente no 44100. É o que a Wikipedia menciona.
Nick T

4
@ShamhamDe Isso ocorre porque se você amostrar um sinal de áudio de 20 kHz a exatamente 20 kHz, não ouviria nada . Imagine, uma onda senoidal que atinge o pico a cada 1/20.000 segundo. Bem, se você provar isso exatamente na mesma taxa, então você somente experimentará os picos (ou nós, ou qualquer nível em que você experimente). Então, quando você recriar o sinal do digital, tudo o que você obtém é uma linha plana. Esse conceito é chamado de alias e faz com que seja necessário amostrar pelo menos duas vezes a frequência máxima que você deseja poder ouvir. 44 100 Hz é conveniente porque é divisível por uma potência de 2.
MichaelK

Respostas:


89
  1. A taxa de amostragem de um sinal real precisa ser maior que o dobro da largura de banda do sinal. O áudio inicia praticamente em 0 Hz, portanto, a frequência mais alta presente no áudio gravado em 44,1 kHz é 22,05 kHz (largura de banda 22,05 kHz).
  2. Os filtros brickwall perfeitos são matematicamente impossíveis, por isso não podemos cortar perfeitamente as frequências acima de 20 kHz. Os 2 kHz extras são para a retirada dos filtros; é a "sala de manobra", na qual o áudio pode alternar devido a filtros imperfeitos, mas não podemos ouvi-lo.
  3. O valor específico de 44,1 kHz era compatível com as taxas de quadros de vídeo PAL e NTSC usadas na época.

Observe que a justificativa é publicada em muitos lugares: Wikipedia: Por que 44,1 kHz?


9
Oi, eu realmente concordo com sua resposta, mas a coisa "..duas vezes a frequência mais alta" morde os iniciantes muito em breve, porque Nyquist é sobre largura de banda, não sobre frequência mais alta; Fui em frente e modifiquei levemente sua resposta. Por favor, verifique se está tudo bem com você.
Marcus Müller

2
@Ruslan: A Wikipedia é muito boa nisso.
jojek

2
@BrianDrummond Então editá-lo?
endolith

3
@ MarcusMüller, o iniciante que é mordido por “Nyqvist é a frequência mais alta permitida” será mordido de qualquer maneira, alterando os artefatos ... Depois disso, eles também entenderão como qualquer faixa de frequências de largura de banda é desmodulada para uma entre e . Δf0Δf=fs/2
usar o seguinte código

11
Pode-se não conseguir distinguir a diferença entre um som de 19.999,9Hz com dez harmônicos ou um som de 20.000,1Hz com nove se alguém os ouvir separadamente, mas isso não significa que uma transição entre os dois não seja audível. Ter um filtro com um corte mais gradual evitaria esses problemas.
precisa

72

44.100 foi escolhido pela Sony porque é o produto dos quadrados dos quatro primeiros números primos. Isso o torna divisível por muitos outros números inteiros , o que é uma propriedade útil na amostragem digital.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Como você notou, o 44100 também está um pouco acima do limite da audição humana dobrada. A parte logo acima dá aos filtros alguma margem de manobra, tornando-os mais baratos (menos chips rejeitados).

Como Russell ressalta nos comentários, o aspecto divisível por muitos outros números inteiros teve um benefício imediato no momento em que a taxa de amostragem foi escolhida. O áudio digital inicial foi gravado na mídia de gravação de vídeo analógica existente que suportava, dependendo da região, as especificações de vídeo NTSC ou PAL . O NTSC e o PAL tinham taxas diferentes de Linhas por Campo e Campos por Segundo, cujo LCM (junto com as Amostras por Linha) é 44100 .


12
A escolha não foi simplesmente obter muitos fatores principais, mas especificamente fazer bom uso do equipamento de gravação de vídeo NTSC e PAL para armazenar mestres digitais. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove 6/17

3
@RussellBorogove: Obrigado. Conforme o link do Wiki, 44100 é o LCM das taxas de amostra das taxas dos recursos de vídeo NTSC e PAL . Isso é uma conseqüência direta de ser um número com tantos fatores, e acredito que você está certo de que o cavalo liderou o carro nessa especificação.
dotancohen

11
Divisível por muitos números, mas não por 8 :)
Bogdan Alexandru

(A Wikipedia diz que uma variedade de taxas de 40,5 a 46,8 kHz teria atendido a esses critérios, e 44,1 kHz foi escolhido para fornecer uma banda de transição para o filtro de antiliasing)
endolith

2
@BogdanAlexandru Também não é divisível por 1 quadros ms USB: D
endolith

13

A taxa Nyquist está acima do dobro do limite de banda de um sinal de banda base que você deseja capturar sem ambiguidade (por exemplo, alias).

Faça uma amostragem a uma taxa mais baixa do que duas vezes 20kHz e você não será capaz de distinguir a diferença entre frequências muito altas e muito baixas apenas olhando as amostras, devido ao alias.

Adicionado: Observe que qualquer sinal de comprimento finito tem suporte infinito no domínio da frequência, portanto, não é estritamente limitado à banda. Esse é mais um motivo pelo qual é necessária a amostragem de qualquer fonte de áudio não infinita um pouco acima do dobro do espectro de frequência mais alta (em um sinal de banda base) para evitar aliasing significativo (além de apenas razões de rolagem de transição de filtro finita).


Oi, eu realmente concordo com sua resposta, mas a coisa "..duas vezes a frequência mais alta" morde os iniciantes muito em breve, porque Nyquist é sobre largura de banda, não sobre frequência mais alta; Fui em frente e modifiquei levemente sua resposta. Por favor, verifique se está tudo bem com você.
Marcus Müller

6
@ MarcusMüller, porque "novatos" para amostragem começar com amostragem de banda base de sinais e não sinais de banda passante, que realmente é sobre a frequência mais alta (às vezes chamado de "bandlimit") e não a largura de banda (que tem uma ambigüidade adicionais sobre um lado ou em frente e verso largura de banda).
precisa

@ robertbristow-johnson não olhou para essa ambiguidade. Hum; Eu gosto da abordagem bandlimit!
Marcus Müller

3
no artigo da Wikipedia , chamamos de " " e, embora Shannon tenha dito que é suficiente, ele estava assumindo energia finita, portanto, não há sinusóides (que possuem energia infinita e também podem colocar delta dirac às ) se você permitir um senoide diretamente na frequência , é o mais indicado . Bfs2B±BBfs>2B
precisa

10

Basicamente, o dobro da largura de banda é um requisito comum para amostragem de sinal, portanto, kHz é o mínimo. Então, um pouco mais é útil para lidar com a filtragem e quantização imperfeitas . Detalhes a seguir.2×20=40

O que você precisa, em teoria, não é o necessário na prática. Isso segue a citação (atribuída a muitos):

Em teoria, não há diferença entre teoria e prática. Na prática existe.

Não sou especialista em áudio, mas fui treinado por pessoas de alta qualidade em amostragem / compressão de áudio. Meu conhecimento pode estar enferrujado, tome com cuidado.

Primeiro, a teoria de amostragem padrão funciona sob algumas suposições: sistemas lineares e invariância do tempo. Então, em teoria, sabe-se que um fenômeno contínuo de banda ilimitada pode ser amostrado com aproximadamente o dobro da largura de banda (ou o dobro da frequência máxima para sinais de banda base) sem perda. A "taxa Nyquist" é frequentemente definida como:

a taxa mínima na qual um sinal pode ser amostrado sem introduzir erros

Esta é a parte de análise do "teorema da amostragem". O "pode ​​ser" é importante. Há uma parte da síntese: o sinal contínuo " pode ser reconstruído" analogamente usando senos cardinais. Essa não é a única técnica e não leva em consideração o pré-filtro passa-baixo, não linear (como quantização, saturação) e outros fatores variantes no tempo.

A audição humana não é um tópico simples. Aceita-se que os humanos ouçam frequências de 20 Hz a 20.000 Hz. Mas esses limites precisos na Hertz não são uma característica da natureza para todos os seres humanos. Uma perda gradual de sensibilidade a frequências mais altas é frequente com a idade. Por outro lado:

Sob condições ideais de laboratório, os humanos podem ouvir sons de até 12 Hz e 28 kHz, embora o limiar aumente acentuadamente em 15 kHz em adultos

A audição não é linear: existem limites de audição e sofrimento . Não é invariante no tempo. Existem efeitos de mascaramento em tempo e frequência.

Se a faixa de 20 Hz a 20.000 Hz for uma faixa comum e teoricamente 40.000 Hz forem suficientes, é necessário um pouco mais para lidar com distorções extras. Uma regra prática diz que 10% a mais está ok ( a largura de banda do sinal) e 44.100 Hz apenas o fazem. Ele remonta ao final da década de 1970. Por que 44.000 Hz não são usados? Principalmente por causa dos padrões, estabelecidos pela popularidade dos CDs, cuja tecnologia é sempre baseada em uma troca. Além disso, 44.100 é o produto dos quadrados dos quatro primeiros números primos ( ), portanto, possui pequenos fatores, benéficos para cálculos (como FFT).2.2×22×32×52×72

Então, de a (e múltiplos), temos um equilíbrio em segurança, quantização, usabilidade, cálculos e padrões.2×2044.1

Existem outras opções: o formato DAT, por exemplo, foi lançado com amostragem de 48 kHz, com conversão inicialmente difícil. 96 kHz é discutido com relação à quantização (ou profundidade de bits) em Qual taxa de amostragem e profundidade de bits devo usar? Este é um assunto controverso, veja 24 bits 48kHz versus 24 bits 96kHz . Você pode verificar as taxas de amostra do Audacity, por exemplo.


2
1. A resposta para a pergunta é que o teorema de Nyquist determina> 40kHz, não> 20kHz. 2. Nem a audição humana nem o formato do CD são limitados a 20Hz na extremidade baixa. Qualquer órgão de tubo grande o suficiente pode produzir um tom de 16Hz e o CD pode reproduzi-lo facilmente. Alguns órgãos diminuem para 8Hz, que passam a ser percebidos como vibrações individuais, mas que novamente o CD pode se reproduzir.
user207421

Eu concordo com o seu comentário, exceto para "dita" (esta é uma condição "se"). Você poderia apontar onde eu me desviei disso?
Laurent Duval

11
Eu tenho apenas um complemento para a resposta de @LaurentDuval. Fala, música e som em geral são sinais não estacionários. Embora estes sejam efetivamente limitados por banda, ainda não sabemos como o ouvido humano está transduzindo o sinal de tempo contínuo para disparos de nervos, o que facilita nossa percepção do som. Costuma-se argumentar que algumas pessoas têm "orelhas de ouro" e podem distinguir entre 44,1 kHz versus 96 kHz. Além disso, ainda estou para confirmar o seguinte, parece que taxas de amostragem mais altas beneficiam a percepção de pistas adicionais, como localização em gravações binaurais.
Neeks 7/03/17

0

Por que é exatamente 44,1 kHz já foi respondido - mas, para focar no aspecto da sua pergunta relacionado ao limite da percepção humana, o motivo é bastante simples.

A resolução no tempo deve ser suficientemente boa para poder gerar todas as formas de onda possíveis até o limite que é perceptível. De acordo com o teorema da amostragem , a resolução deve ser tal que a frequência de amostragem seja pelo menos duas vezes essa frequência. Intuitivamente, na frequência mais alta, você precisa de pelo menos 2 pontos para representar o máximo e o mínimo do seu sinal - dando a essa onda quadrada Ascii-art:

_   _
 |_| |_

-1

Para reproduzir fielmente um sinal, quanto mais rápida a taxa de amostragem, melhor. Foi escolhido ~ 40 kHz, porque era uma baixa taxa de amostragem que a maioria das pessoas não sabe dizer a diferença (quando reconstruída). Quando a amostragem de áudio foi introduzida, a memória e o armazenamento eram caros e as taxas de amostragem mais altas não eram mais baratas.

No dobro do limite superior da audição humana, duas amostras por ciclo são reconstruções muito precárias, mesmo que atendam aos critérios de Nyquist para amostragem de sinais, um gráfico simples representando uma onda senoidal com duas amostras por ciclo mostra como duas amostras são pobres por ciclo. na reprodução de uma forma de onda. Você pode literalmente transformar uma onda senoidal em onda quadrada; é uma coisa boa a 20 kHz que ninguém sabe. Aposto que um cachorro poderia.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.