Eu li em alguns lugares que a música é mais amostrada em 44,1 kHz, enquanto que só podemos ouvir até 20 kHz. Por que é isso?
Eu li em alguns lugares que a música é mais amostrada em 44,1 kHz, enquanto que só podemos ouvir até 20 kHz. Por que é isso?
Respostas:
Observe que a justificativa é publicada em muitos lugares: Wikipedia: Por que 44,1 kHz?
44.100 foi escolhido pela Sony porque é o produto dos quadrados dos quatro primeiros números primos. Isso o torna divisível por muitos outros números inteiros , o que é uma propriedade útil na amostragem digital.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Como você notou, o 44100 também está um pouco acima do limite da audição humana dobrada. A parte logo acima dá aos filtros alguma margem de manobra, tornando-os mais baratos (menos chips rejeitados).
Como Russell ressalta nos comentários, o aspecto divisível por muitos outros números inteiros teve um benefício imediato no momento em que a taxa de amostragem foi escolhida. O áudio digital inicial foi gravado na mídia de gravação de vídeo analógica existente que suportava, dependendo da região, as especificações de vídeo NTSC ou PAL . O NTSC e o PAL tinham taxas diferentes de Linhas por Campo e Campos por Segundo, cujo LCM (junto com as Amostras por Linha) é 44100 .
A taxa Nyquist está acima do dobro do limite de banda de um sinal de banda base que você deseja capturar sem ambiguidade (por exemplo, alias).
Faça uma amostragem a uma taxa mais baixa do que duas vezes 20kHz e você não será capaz de distinguir a diferença entre frequências muito altas e muito baixas apenas olhando as amostras, devido ao alias.
Adicionado: Observe que qualquer sinal de comprimento finito tem suporte infinito no domínio da frequência, portanto, não é estritamente limitado à banda. Esse é mais um motivo pelo qual é necessária a amostragem de qualquer fonte de áudio não infinita um pouco acima do dobro do espectro de frequência mais alta (em um sinal de banda base) para evitar aliasing significativo (além de apenas razões de rolagem de transição de filtro finita).
Basicamente, o dobro da largura de banda é um requisito comum para amostragem de sinal, portanto, kHz é o mínimo. Então, um pouco mais é útil para lidar com a filtragem e quantização imperfeitas . Detalhes a seguir.
O que você precisa, em teoria, não é o necessário na prática. Isso segue a citação (atribuída a muitos):
Em teoria, não há diferença entre teoria e prática. Na prática existe.
Não sou especialista em áudio, mas fui treinado por pessoas de alta qualidade em amostragem / compressão de áudio. Meu conhecimento pode estar enferrujado, tome com cuidado.
Primeiro, a teoria de amostragem padrão funciona sob algumas suposições: sistemas lineares e invariância do tempo. Então, em teoria, sabe-se que um fenômeno contínuo de banda ilimitada pode ser amostrado com aproximadamente o dobro da largura de banda (ou o dobro da frequência máxima para sinais de banda base) sem perda. A "taxa Nyquist" é frequentemente definida como:
a taxa mínima na qual um sinal pode ser amostrado sem introduzir erros
Esta é a parte de análise do "teorema da amostragem". O "pode ser" é importante. Há uma parte da síntese: o sinal contínuo " pode ser reconstruído" analogamente usando senos cardinais. Essa não é a única técnica e não leva em consideração o pré-filtro passa-baixo, não linear (como quantização, saturação) e outros fatores variantes no tempo.
A audição humana não é um tópico simples. Aceita-se que os humanos ouçam frequências de 20 Hz a 20.000 Hz. Mas esses limites precisos na Hertz não são uma característica da natureza para todos os seres humanos. Uma perda gradual de sensibilidade a frequências mais altas é frequente com a idade. Por outro lado:
Sob condições ideais de laboratório, os humanos podem ouvir sons de até 12 Hz e 28 kHz, embora o limiar aumente acentuadamente em 15 kHz em adultos
A audição não é linear: existem limites de audição e sofrimento . Não é invariante no tempo. Existem efeitos de mascaramento em tempo e frequência.
Se a faixa de 20 Hz a 20.000 Hz for uma faixa comum e teoricamente 40.000 Hz forem suficientes, é necessário um pouco mais para lidar com distorções extras. Uma regra prática diz que 10% a mais está ok ( a largura de banda do sinal) e 44.100 Hz apenas o fazem. Ele remonta ao final da década de 1970. Por que 44.000 Hz não são usados? Principalmente por causa dos padrões, estabelecidos pela popularidade dos CDs, cuja tecnologia é sempre baseada em uma troca. Além disso, 44.100 é o produto dos quadrados dos quatro primeiros números primos ( ), portanto, possui pequenos fatores, benéficos para cálculos (como FFT).
Então, de a (e múltiplos), temos um equilíbrio em segurança, quantização, usabilidade, cálculos e padrões.
Existem outras opções: o formato DAT, por exemplo, foi lançado com amostragem de 48 kHz, com conversão inicialmente difícil. 96 kHz é discutido com relação à quantização (ou profundidade de bits) em Qual taxa de amostragem e profundidade de bits devo usar? Este é um assunto controverso, veja 24 bits 48kHz versus 24 bits 96kHz . Você pode verificar as taxas de amostra do Audacity, por exemplo.
Por que é exatamente 44,1 kHz já foi respondido - mas, para focar no aspecto da sua pergunta relacionado ao limite da percepção humana, o motivo é bastante simples.
A resolução no tempo deve ser suficientemente boa para poder gerar todas as formas de onda possíveis até o limite que é perceptível. De acordo com o teorema da amostragem , a resolução deve ser tal que a frequência de amostragem seja pelo menos duas vezes essa frequência. Intuitivamente, na frequência mais alta, você precisa de pelo menos 2 pontos para representar o máximo e o mínimo do seu sinal - dando a essa onda quadrada Ascii-art:
_ _
|_| |_
Para reproduzir fielmente um sinal, quanto mais rápida a taxa de amostragem, melhor. Foi escolhido ~ 40 kHz, porque era uma baixa taxa de amostragem que a maioria das pessoas não sabe dizer a diferença (quando reconstruída). Quando a amostragem de áudio foi introduzida, a memória e o armazenamento eram caros e as taxas de amostragem mais altas não eram mais baratas.
No dobro do limite superior da audição humana, duas amostras por ciclo são reconstruções muito precárias, mesmo que atendam aos critérios de Nyquist para amostragem de sinais, um gráfico simples representando uma onda senoidal com duas amostras por ciclo mostra como duas amostras são pobres por ciclo. na reprodução de uma forma de onda. Você pode literalmente transformar uma onda senoidal em onda quadrada; é uma coisa boa a 20 kHz que ninguém sabe. Aposto que um cachorro poderia.