Como melhorar o material de áudio de fala de 22,05 kHz para escutar para 44,1 kHz?


1

Eu encontrei uma novela de rádio realmente interessante na web, e gostaria de atrair a atenção de um de meus conhecidos para ela. Infelizmente o material de áudio tem baixa qualidade, apenas 22,05 kHz e 1 canal, mono. No entanto, não contém música, apenas fala. De um modo geral, parece um rádio antigo ou um telefone antigo. Eu gostaria de melhorar um pouco, se possível, antes de enviá-lo para o meu amigo. Qual software devo usar e quais operações devo executar no arquivo de áudio para torná-lo um pouco melhor?


1
Você pode compartilhar uma amostra do áudio?
Attie


Obrigado, veja minha resposta atualizada.
Attie

1
Talvez você possa executá-lo através de um modelo de reconstrução de fala super sofisticado, conforme descrito Aqui . Eu não estou familiarizado com os requisitos.
Daniel B

Respostas:


3

Se a taxa de amostragem para gravar a voz for de 22kHz, você não poderá apenas aprimorá-la configurando-a para 44kHz. Você pode compará-lo a uma imagem de bitmap: você não obterá mais detalhes tornando "os pixels maiores". O mesmo com mono / estéreo. Se você tiver uma gravação mono, não poderá transformá-la em uma gravação estéreo. Funciona apenas ao contrário, por ex. fazendo estéreo em mono.

No entanto, se houver outros "problemas", e. certas partes da gravação não têm volume suficiente, você pode corrigir isso ou suavizar mudanças abruptas, etc. Mas isso depende do tipo de problema, não há solução geral. Você deve se familiarizar com o tópico para saber qual é o "problema técnico" e tentar encontrar uma solução. Se você tiver problemas para aplicar esta solução (de encontrar uma solução para um problema acústico muito específico), seria um bom ponto para perguntar novamente sobre esse tópico específico.


Eu vejo, mas quando eu ampliar imagens digitais, eles também são reamostrados em certo sentido, podemos dizer que eles são reescalonados. E há um algoritmo de reescalonamento ruim, bom e melhor ainda para imagens: vizinho mais próximo, bilinear, bicúbico, lanczos, etc., para interpolar os pixels ausentes. Eu pensei que deve haver uma abordagem semelhante para arquivos de áudio também.
Konstantin

2
@ Konstantin sim, existem vários "filtros" ou outras manipulações que você pode usar em áudio, analógicas à maneira como você melhora nas imagens. Mas infelizmente não há um método geral para tornar as imagens "melhores". Você pode tentar alguns algoritmos sem realmente saber o que está fazendo e ver se gosta mais da imagem. Se isso não funcionar, você precisa saber mais para poder analisar seu problema específico. O mesmo vale para o áudio.
Albin

3

22,05 kHz não é " má qualidade "no que diz respeito à palavra falada ... a maior parte da biblioteca Audible tem uma taxa de amostragem de 22,05 kHz - mesmo para o" alta qualidade " arquivos.

Se a gravação " soa mal ", então provavelmente é devido a outra coisa:

  • profundidade de bits (8 bits versus 16 bits)
  • compressão (baixa taxa de bits MP3 vs AAC ou OGG)
  • microfone (barato vs não tão barato)
  • posicionamento do microfone vs leitor
  • meio original (analógico vs digital / fita cassete vs MiniDisc ou PC)
  • um up-sample anterior de uma taxa de amostragem muito menor (que é o que você está tentando fazer agora).

De qualquer maneira, a informação agora está perdida e será difícil voltar. O melhor que você provavelmente pode fazer sem gastar muito tempo nisso é ajustar um EQ para torná-lo mais aceitável.


A amostra que você forneceu não parece muito ruim para mim (embora eu não fale a língua, então pode estar faltando algumas nuances ...).

Eu olharia para ajustar o EQ ligeiramente e " normalizar " o áudio para elevar o nível - você pode achar que o que você acha que é uma gravação ruim é, na verdade, o ruído em seu sistema se tornando mais aparente ao aumentar o volume.

A forma de onda muda conforme mostrado abaixo (usando o Audacity), antes (acima) e depois (abaixo):

Audacity, before (top) and after (bottom)

Há um pouco de reverberação na gravação (que provavelmente terá vindo da sala e, possivelmente, estar um pouco longe demais do microfone). No entanto, há ruído de fundo mínimo (daí as seções estreitas da forma de onda), sem distorção e apenas um único pop no arquivo inteiro (não mostrado acima).


2

Como já mencionado, gravar a 22.05kHz para a palavra falada não é em si 'ruim'; mas também não pode ser "consertado" porque não há informação na gravação para enfatizar. Você só pode trabalhar com o que já existe.

Alguma explicação ... A voz humana é realmente a mais distinta em torno de 2 - 6 kHz. É onde todas as consoantes são & amp; o que realmente ajuda o ouvinte a decidir o que está sendo dito; é também por isso que colocar os dedos nos ouvidos reduz a compreensão, principalmente bloqueia essas frequências mais altas.
Há informações na fala acima de 6kHz, mas elas se afastam muito acima disso & amp; por 11kHz, resta muito pouca informação útil.

Então, para palavras faladas, eles usam 22,05kHz como frequência de amostragem.
Há uma análise de áudio muito complexa chamada Teorema da amostragem de Nyquist-Shannon muitas vezes apenas referido como o limite de Nyquist, que basicamente se resume a
"A maior freqüência de áudio que pode ser gravada em um arquivo de áudio é metade da frequência de amostragem."
Isso equivale a cerca de 11kHz em uma gravação de 22,05kHz.
Isso é muito para uma voz humana.

Isso também significa que não há mais nenhuma informação acima com a qual trabalhar, mesmo se você alterar a frequência de amostragem até 44.1kHz [qualidade de áudio de CD].

Para o seu livro de áudio.
O problema, como eu ouço, é que o leitor estava um pouco perto do microfone. Isso enfatiza freqüências mais baixas, devido a algo chamado efeito de proximidade . Não há necessidade de aprofundar isso aqui, mas, no geral, tornou a gravação um pouco mais complicada.
Também tem sido um pouco comprimido - teve a faixa dinâmica reduzida para que as partes quietas sejam mais altas & amp; os bits altos são mais silenciosos. Isso deve ajudar a inteligibilidade, mas não foi tão bem quanto poderia ter sido, & amp; tende a enfatizar ainda mais o baixo. O único raciocínio que posso pensar em fazer isso é que faz o leitor parecer "mais viril, mais autoritário" ... mas na verdade não ajuda a inteligibilidade nem um pouco:

O que precisamos fazer é reduzir o baixo, enfatizar os altos & amp; tente des-enfatizar parte da compressão pesada.
A maior parte disso poderia ser feito no Audacity, em maior ou menor grau, mas estou mais confortável no Cubase, então deixe-me mostrar lá ...

A maioria das pessoas diria para você normalizar o arquivo primeiro.
Não faça isso primeiro - você vai matar o seu potencial de headroom.
Se você precisar fazer isso, faça último .

Observe também que você não pode "desfazer" a compactação que já foi aplicada - isso seria equivalente a obter os ovos & amp; farinha de volta de um bolo assado - em vez disso, você só pode tentar mitigá-lo nas áreas mais afetadas.

Se tudo que você tem que trabalhar é Equalização, então você poderia tentar reduzir os níveis abaixo de 250Hz, suavemente rolando abaixo disso. Você pode então tentar recuperar algumas consoantes adicionando em uma inclinação oposta acima de talvez 2 ou 3 kHz.

Vi um clique irritante, ou um beijo de lábio por volta das 3:40, que eu simplesmente selecionei & amp; diminuiu para zero - você pode ficar esperto com um clicker, mas não vale a pena o esforço.

Minha arma de escolha para qualquer operação de resgate como esta é um compressor multi-banda.
Eu encontrei um free multi banda comp para o Audacity, embora eu não tentei por mim mesmo, então YMMV - https://www.gvst.co.uk/gmulti.htm

Eu uso o muito mais caro Waves LinMB, mas a idéia geral é a mesma. É assim que eu configurei ...

enter image description here

A partir da imagem, você pode ver que estou atingindo o extremo mais baixo, para tentar remover esse boom excessivo. No meio eu estou praticamente deixando intocado. Os altos eu aumento o seu nível de saída, enquanto ao mesmo tempo aplicou uma ligeira compressão apenas para alguns dos mais pesadas S's etc não ficar muito forte. Além disso, neste momento eu não aumentei o volume geral - ainda temos muito espaço para jogar com o & amp; é melhor quando você altera seu efeito em & amp; para comparação, você não está apenas se enganando com a mudança de volume.

Exemplos rápidos -
antes...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

depois de...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

Neste ponto, uma vez que você está feliz com o som, agora você pode normalizar.

Observe que meus exemplos estão com uma taxa de amostragem mais alta, simplesmente porque não posso exportar diretamente para 22.05. Isso não afeta materialmente o resultado de nenhuma maneira.


Um truque de trabalhar para imagens é aumentar a profundidade de bits ao trabalhar com gradientes e, em seguida, retroceder para 8 bits. Isso reduz ou até mesmo elimina a formação de faixas visuais. Eu estou querendo saber se tal técnica é útil neste contexto (aumentar a profundidade de bits, aplicar filtros, etc, em seguida, dither de volta para baixo).
Yorik

Potencialmente. tbh, eu levantei isso para o 16.1 de 16 bits para trabalhar, mas não tenho certeza de como algo como o Audacity lidaria com isso. Em & amp; por si só, não deveria faça qualquer diferença a menos que você esteja sintetizando harmônicos mais altos, o que eu pensei que seria uma ponte muito longe para o que pareceria ser uma consulta de nível de entrada. Além disso, para palavras faladas solo, você pode se safar com um corte de 6kHz & amp; ainda preservar cheio inteligibilidade, mesmo que não seja "bom oi-fi". Pense no que os telefones fazem para um sinal de áudio: /
Tetsujin

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.