Por que o áudio do telefone é amostrado em 8 kHz?


8

Quando decidimos amostrar o telefone a kHz? Este sempre foi o caso? Por que fizemos isso? É porque taxas de bits mais altas não podem ser transferidas tão rapidamente? E essas razões ainda contam? E se não, por que ainda não existe um novo padrão? É verdade que kHz é a menor taxa de amostragem possível para transferir fala compreensível?88

Estou tentando encontrar fontes para isso, mas não parece haver muita informação sobre isso.


2
Nem sempre foi o caso, porque as linhas telefônicas costumavam ser totalmente analógicas.
Simon B

2
na verdade, eles ainda podem ser totalmente analógicos para chamadas locais dentro da mesma central. mas eu não sei. mas mesmo quando eram analógicos, havia limitações de largura de banda e a "qualidade da voz" era o critério suficiente.
Robert Bristow-johnson

Só para não ficarmos confusos ... e uma taxa de atualização e taxa de bits de atualização não são as mesmas. Baud é "bits na densidade da unidade". Baud é a taxa de sinalização, Bits são a taxa de informação. portanto, se sua taxa de BAUD for de 1200 baud e você estiver passando 4 bits por ciclo de clock, estará executando 4800 bits por segundo. Tivemos modems DSP capazes de passar 150Kb / s em uma linha telefônica analógica, mas a técnica de modulação era muito sofisticada e usado em qualquer lugar de 256 a 512 tons de áudio para mover os dados pelo canal .. além de equalizar a linha e remover o atraso. Lembro-me de ter visto alguns modems que eram
Keith

Ah, achei ... A US Robotics criou um Modem 2400 BAUD chamado Sportster HST v92. era 2400 Baud, mas passou 21.600 bits por segundo. Portanto, havia 2400 modems BAUD no mercado em meados dos anos 90
Keith

Respostas:


4

Se alguém se interessar em cavar, acho que descobrirá que, antes que a Bell Telephone começasse a multiplexar as linhas de voz, eles fizeram muita pesquisa sobre o conteúdo de frequência da voz humana. Eles originalmente usaram grupos de teste para desenvolver a unidade de áudio bel e a distribuição de energia da voz, bem como a sensibilidade do ouvido humano a várias frequências. Eles desenvolveram uma característica de banda passante que atingiu um pico em torno de 2,1 KHz e saiu abaixo de 300 e mais de 3000 HZ. Isso deu uma boa voz humana quando feito corretamente. Tudo isso era analógico.
O rádio AM expandiu isso para 5 KHz para incluir músicas aceitáveis ​​para a maioria das pessoas quando éramos jovens e tínhamos bons ouvidos. Os transformadores flyback da televisão foram projetados para rodar a ~ 17,5 KHz, porque havia um número mágico para a reprodução de imagense a maioria das pessoas não ouvia o lamento . O rádio de banda lateral única foi comercializado nos anos 60 e precisava de frequências de corte muito nítidas. Usei rádios com filtros de 2,1 e 3,1 KHz. 2.1 tinha algumas características do Pato Donald. 3.1 soou bem, novamente com ouvidos jovens. O passe de banda de áudio foi aumentado para 20 KHZ ou melhor com FM, porque as frequências portadoras mais altas podiam suportar uma largura de banda maior para uma melhor reprodução de música . Empilhe alguns xilofones, sinos ou outros instrumentos agudos e eles podem obter energia harmônica suficiente nas frequências mais altas. OTOH, como era o estado, a maioria das pessoas não consegue ouvir.

A conclusão é que qualquer pessoa que afirme precisar de largura de banda de 20 KHz para voz não está prestando atenção. 3 KHz farão isso, 5 darão uma margem. Se não soar bem, algo diferente da largura de banda é o problema.

Quando a sinalização digital estava sendo desenvolvida, as pessoas que sabiam descobrir que, por mais estranha que parecesse uma forma de onda, ela poderia ser dividida em um conjunto de ondas senoidais. A mistura harmônica dessas ondas produziu o padrão típico de voz ou música. Por fim, Nyquist pesquisou a taxa de amostragem digital necessária para reproduzir uma onda senoidal em uma determinada frequência. Acontece que são necessárias duas amostras para formar uma onda senoidal, de modo que a frequência mais alta que será reproduzida é metade da taxa de amostragem. Você quer 5 KHz de áudio e depois experimenta a 10 KHz. Ótimo para voz. Você deseja música com maior fidelidade do que a maioria das pessoas pode ouvir e, em seguida, amostrar a 40 KHz ou mais para obter mais de 20 KHz.

Mais um boato é amostragem vs taxa de bits. Se você amostrar em uma determinada frequência, multiplique que pelo comprimento da palavra você obterá a taxa de bits mínima necessária para produzir o sinal desejado. Reduza a taxa de bits e o tamanho da palavra de amostra será cortado para atender à nova taxa de bits em uma determinada taxa de amostra. Isso é tudo codificação "sem perdas". Isso é tudo da memória e tentando encontrar dados atuais. Está lá se alguém procurar por citações. Não vou me incomodar porque estou ficando velha demais para me importar. Eu me cansei de percorrer muitos problemas míticos óbvios quando me interessei em fazer alguma captura de áudio.


5

Foi pensado para fornecer uma boa troca entre qualidade e largura de banda. Na verdade, um único sinal de voz ocupa 8 kHz, não 8 kbps, de largura de banda. Cada amostra é quantizada em 8 bits, produzindo uma taxa de 64 kbps que é usada universalmente.

Leitura adicional:


3
Quando o sinal de voz é amostrado em 8 khz, supõe-se que sua largura de banda seja menor que 4khz e não 8khz. Além disso, a taxa de bits bruta de 64 kbps do PCM resultante pode ser reduzida pelas técnicas DPCM e ADPCM para 32 kbps ou 16 kbps sempre que for necessária eficiência.
precisa

Isso é verdade. Além disso, é garantido que ele ocupa menos de 4 kHz através da filtragem passa-baixo. Caso contrário, o alias ocorre.
Emre

então acho que você deve revisar sua resposta dizendo "Na verdade, um único sinal de voz ocupa 8 kHz, não 8 kbps, de largura de banda". Um sinal de voz pode ocupar todo o espectro de 20 a 20 kHz, mas apenas os primeiros 4 kHz são capturados na transmissão.
precisa

Eu acho que você quis dizer que o ouvido humano pode discernir frequências nesse intervalo? Essa é uma questão diferente.
Emre

2

Outra razão é que, antes da transmissão do sinal digital, o áudio do telefone costumava ser modulado em um canal de banda estreita para que várias chamadas telefônicas pudessem ser enviadas por um único link analógico (relés de torre de RF e microondas, etc.). ser primeiro filtrado em passa-baixo para reduzir a largura de banda necessária para cada canal, de modo a compactar o maior número de canais em um canal analógico (mas mesmo assim, em um dia ruim, era possível ouvir algumas chamadas telefônicas adjacentes como pano de fundo ruído). Como as pessoas se acostumaram com chamadas de longa distância sem frequências superiores a 3,5 kHz, essa largura de banda se tornou comercialmente aceitável, mesmo para chamadas locais.

No entanto, larguras de banda ainda mais estreitas foram usadas para comunicações de exploração espacial precoce, portanto 3,5 kHz pode não ser o mínimo para uma fala compreensível.


1

Para esclarecer muitos equívocos.

Primeiro, nunca houve um modem de 56k "baud". Baud é sobre mudança de estado e foi atingido no máximo em 1200 baud. Qualquer coisa além disso exigia codificação mais sofisticada.

Segundo, a audição humana percebe não apenas os tons fundamentais, mas também muitas ordens de conteúdo harmônico muito acima e além do fundamental. Quando esse conteúdo harmônico é removido, o áudio soa menos natural e agradável. Áudio com resolução mais alta (que 8 kHz) é mais inteligível e mais agradável ao ouvido.

Terceiro, Nyquist trabalha dentro de um domínio de tempo fixo. Se você começar a amostrar no momento exato de um pico ou vale, precisará apenas do dobro da taxa de amostragem para a frequência. No entanto, no mundo real, seus pontos de amostra podem ocorrer em qualquer deslocamento aleatório no tempo até o pico ou vale, exigindo, portanto, uma taxa de amostragem mais alta. Por exemplo, se você amostrar uma onda senoidal e seu momento de amostragem ocorrer precisamente a um desvio de 90 graus desde o início da onda, seus dados sugerirão uma linha reta em vez de uma onda. Para tons fundamentais, isso é crítico. Para conteúdo harmônico, é mais agradável de se ter, com retornos decrescentes perto do limite superior da faixa audível. Nyquist aplicado ao processamento de áudio é um dos teoremas mais mal interpretados do mercado.


Você tem uma referência para a alegação de que nenhum modem está acima de 1200 baud? Acredito que a reivindicação esteja incorreta. Além disso, pelo que vale a pena, o parágrafo sobre amostragem está errado. Ao amostrar uma onda senoidal, qualquer taxa de amostragem maior que o dobro da frequência do seno é suficiente, independentemente da fase.
MBaz

0

Como já foi dito 4 kHz é padrão, porque, naturalmente, onde a voz humana é source1 source2 . Eu encontrei este artigo que menciona frequências fundamentais são muito mais baixos 85Hz-300Hz artigo . Se isso funciona ou não na prática, não posso dizer com certeza. mas vale a pena tentar


0

O sistema telefônico analógico tinha um filtro de parede de tijolos a 3,9 KHz. Isso passou todas as informações necessárias para a fala inteligível e permitiu o empacotamento da largura de banda. Muitas pessoas sofreram lavagem cerebral em seus pensamentos sobre as larguras de banda necessárias. As larguras de banda de 20 a 20.000 Hz são ótimas para música, mas são completamente desnecessárias para reproduzir a fala humana.

Alguém perguntará a Nyquist como enviamos sinais de fax de 56 KBaud por linhas analógicas com filtros de parede de tijolos de 3,9 KHz. Alguém se lembra de aparelhos de fax?

A nota mais alta em um piano é 4186 Hz. A faixa de frequência das vozes humanas é inferior a cerca de 1000 Hz. C médio em um piano é de cerca de 262 Hz, apenas para colocar alguma perspectiva sobre as coisas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.