Como já mencionado, gravar a 22.05kHz para a palavra falada não é em si 'ruim'; mas também não pode ser "consertado" porque não há informação na gravação para enfatizar. Você só pode trabalhar com o que já existe.
Alguma explicação ...
A voz humana é realmente a mais distinta em torno de 2 - 6 kHz. É onde todas as consoantes são & amp; o que realmente ajuda o ouvinte a decidir o que está sendo dito; é também por isso que colocar os dedos nos ouvidos reduz a compreensão, principalmente bloqueia essas frequências mais altas.
Há informações na fala acima de 6kHz, mas elas se afastam muito acima disso & amp; por 11kHz, resta muito pouca informação útil.
Então, para palavras faladas, eles usam 22,05kHz como frequência de amostragem.
Há uma análise de áudio muito complexa chamada Teorema da amostragem de Nyquist-Shannon muitas vezes apenas referido como o limite de Nyquist, que basicamente se resume a
"A maior freqüência de áudio que pode ser gravada em um arquivo de áudio é metade da frequência de amostragem."
Isso equivale a cerca de 11kHz em uma gravação de 22,05kHz.
Isso é muito para uma voz humana.
Isso também significa que não há mais nenhuma informação acima com a qual trabalhar, mesmo se você alterar a frequência de amostragem até 44.1kHz [qualidade de áudio de CD].
Para o seu livro de áudio.
O problema, como eu ouço, é que o leitor estava um pouco perto do microfone. Isso enfatiza freqüências mais baixas, devido a algo chamado efeito de proximidade . Não há necessidade de aprofundar isso aqui, mas, no geral, tornou a gravação um pouco mais complicada.
Também tem sido um pouco comprimido - teve a faixa dinâmica reduzida para que as partes quietas sejam mais altas & amp; os bits altos são mais silenciosos. Isso deve ajudar a inteligibilidade, mas não foi tão bem quanto poderia ter sido, & amp; tende a enfatizar ainda mais o baixo. O único raciocínio que posso pensar em fazer isso é que faz o leitor parecer "mais viril, mais autoritário" ... mas na verdade não ajuda a inteligibilidade nem um pouco:
O que precisamos fazer é reduzir o baixo, enfatizar os altos & amp; tente des-enfatizar parte da compressão pesada.
A maior parte disso poderia ser feito no Audacity, em maior ou menor grau, mas estou mais confortável no Cubase, então deixe-me mostrar lá ...
A maioria das pessoas diria para você normalizar o arquivo primeiro.
Não faça isso primeiro - você vai matar o seu potencial de headroom.
Se você precisar fazer isso, faça último .
Observe também que você não pode "desfazer" a compactação que já foi aplicada - isso seria equivalente a obter os ovos & amp; farinha de volta de um bolo assado - em vez disso, você só pode tentar mitigá-lo nas áreas mais afetadas.
Se tudo que você tem que trabalhar é Equalização, então você poderia tentar reduzir os níveis abaixo de 250Hz, suavemente rolando abaixo disso. Você pode então tentar recuperar algumas consoantes adicionando em uma inclinação oposta acima de talvez 2 ou 3 kHz.
Vi um clique irritante, ou um beijo de lábio por volta das 3:40, que eu simplesmente selecionei & amp; diminuiu para zero - você pode ficar esperto com um clicker, mas não vale a pena o esforço.
Minha arma de escolha para qualquer operação de resgate como esta é um compressor multi-banda.
Eu encontrei um free multi banda comp para o Audacity, embora eu não tentei por mim mesmo, então YMMV - https://www.gvst.co.uk/gmulti.htm
Eu uso o muito mais caro Waves LinMB, mas a idéia geral é a mesma. É assim que eu configurei ...
A partir da imagem, você pode ver que estou atingindo o extremo mais baixo, para tentar remover esse boom excessivo. No meio eu estou praticamente deixando intocado. Os altos eu aumento o seu nível de saída, enquanto ao mesmo tempo aplicou uma ligeira compressão apenas para alguns dos mais pesadas S's etc não ficar muito forte. Além disso, neste momento eu não aumentei o volume geral - ainda temos muito espaço para jogar com o & amp; é melhor quando você altera seu efeito em & amp; para comparação, você não está apenas se enganando com a mudança de volume.
Exemplos rápidos -
antes...
https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix
depois de...
https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix
Neste ponto, uma vez que você está feliz com o som, agora você pode normalizar.
Observe que meus exemplos estão com uma taxa de amostragem mais alta, simplesmente porque não posso exportar diretamente para 22.05. Isso não afeta materialmente o resultado de nenhuma maneira.