A resposta simples é que um sistema de resposta de frequência plana construído com amplificadores operacionais para corrigir a resposta do driver terá necessariamente uma resposta de fase muito plana na banda de passagem. Essa não planicidade significa que as frequências dos componentes dos sons transitórios ficam desigualmente atrasadas, resultando em uma distorção transitória sutil que impede o reconhecimento adequado dos componentes do som, o que significa que menos sons distintos podem ser discernidos.
Conseqüentemente, parece terrível. Como se todo o som viesse de uma bola difusa centrada exatamente entre os ouvidos.
O problema da HRTF na resposta acima é apenas parte disso - o outro é que um circuito de domínio analógico realizável pode ter apenas uma resposta de tempo causal e, para corrigir o driver corretamente, é necessário um filtro acausal.
Isso pode ser aproximado digitalmente com um filtro de resposta ao impulso finito correspondente ao driver, mas isso requer um pequeno atraso de tempo, o suficiente para tornar os filmes muito fora de sincronia.
E ainda parece que vem de dentro da sua cabeça, a menos que o HRTF também seja adicionado novamente.
Então, não é tão simples, afinal.
Para criar um sistema "transparente", você não precisa apenas de uma banda plana sobre o alcance da audição humana, também precisa de uma fase linear - um gráfico de atraso de grupo plano - e há algumas evidências que sugerem que essa fase linear precisa para continuar com uma frequência surpreendentemente alta, para que as dicas direcionais não sejam perdidas.
Isso é fácil de verificar pela experiência: abra um .wav de algumas músicas que você conhece em um editor de arquivos de som como o Audacity ou snd e exclua uma única amostra de 44100 Hz de apenas um canal e realinhe o outro para que o primeiro Agora, o exemplo acontece com o segundo do canal editado e o reproduz.
Você ouvirá uma diferença muito perceptível, mesmo que a diferença seja um atraso de tempo de apenas 1 / 44100th de segundo.
Considere o seguinte: o som gira em torno de 340 mm / ms; portanto, a 20 kHz, este é um erro de tempo de mais menos um atraso de amostra ou 50 microssegundos. São 17 mm de deslocamento do som, mas você pode ouvir a diferença com os 22,67 microssegundos ausentes, o que representa apenas 7,7 mm de deslocamento do som.
O corte absoluto da audição humana é geralmente considerado em torno de 20 kHz, então o que está acontecendo?
A resposta é que os testes auditivos são realizados com tons de teste que consistem principalmente em apenas uma frequência de cada vez, por um período bastante longo em cada parte do teste. Mas nossos ouvidos internos consistem em uma estrutura física que executa uma espécie de FFT no som enquanto expõe os neurônios, de modo que os neurônios em posições diferentes se correlacionam com frequências diferentes.
Os neurônios individuais podem apenas disparar tão rápido, então, em alguns casos, alguns são usados um após o outro para acompanhar ... mas isso só funciona até cerca de 4 kHz ... O que é exatamente onde a percepção do tom termina. No entanto, não há nada no cérebro que impeça o disparo de um neurônio a qualquer momento que seja tão inclinado; então, qual é a frequência mais alta que importa?
O ponto é que a pequena diferença de fase entre os ouvidos é perceptível, mas, em vez de mudar a maneira como identificamos os sons (por sua estrutura espectrográfica), afeta como percebemos sua direção. (que o HRTF também muda!) Mesmo que pareça que deveria ser "retirado" do nosso alcance auditivo.
A resposta é que o ponto -3dB ou mesmo -10dB ainda é muito baixo - você precisa ir até o ponto -80 dB para obter tudo. E se você quiser lidar com som alto e silencioso, precisará diminuir para -100 dB. É improvável que um teste de audição por tom único seja visto, em grande parte porque essas frequências apenas "contam" quando chegam em fase com seus outros harmônicos como parte de um som transitório agudo - sua energia nesse caso se soma, atingindo concentração suficiente para desencadear uma resposta neural, mesmo que como componentes individuais de frequência isolados eles possam ser muito pequenos para serem contados.
Outra questão é que somos constantemente bombardeados por muitas fontes de ruído ultrassônico, provavelmente por causa de neurônios quebrados em nossos ouvidos internos, danificados pelo nível sonoro excessivo em algum momento anterior de nossas vidas. Seria difícil discernir o tom de saída isolado de um teste de audição com um ruído "local" tão alto!
Portanto, isso requer um design de sistema "transparente" para usar uma frequência passa-baixo muito mais alta, para que haja espaço para o passe-baixo humano desaparecer (com sua própria modulação de fase na qual seu cérebro já está "calibrado") antes do sistema a modulação de fase começa a mudar a forma dos transitórios e a alterá-los no tempo, de modo que o cérebro não reconheça mais a que som eles pertencem.
Com os fones de ouvido, é muito mais fácil construí-los para ter um único driver de banda larga com largura de banda suficiente e contar com a resposta de frequência natural muito alta do driver 'não corrigido' para evitar distorção temporal. Isso funciona muito melhor com fones de ouvido, pois a pequena massa do driver se presta bem a essa condição.
A razão para a necessidade de linearidade de fase está profundamente enraizada na dualidade no domínio da frequência no domínio do tempo, assim como a razão pela qual você não pode construir um filtro de atraso zero que possa "corrigir perfeitamente" qualquer sistema físico real.
A razão pela qual é a "linearidade de fase" que importa e não a "planicidade de fase" é porque a inclinação geral da curva de fase não importa - por dualidade, qualquer inclinação de fase é apenas equivalente a um atraso de tempo constante.
O ouvido externo de todos tem uma forma diferente e, portanto, uma função de transferência diferente, ocorrendo em frequências ligeiramente diferentes. Seu cérebro está acostumado com o que tem, com suas próprias ressonâncias distintas. Se você usar a incorreta, ela realmente soará pior, pois as correções que seu cérebro está acostumado a fazer não corresponderão mais às da função de transferência do fone de ouvido e você terá algo pior do que a falta de cancelamento de ressonância - você terá o dobro de polos / zeros desequilibrados, atrapalhando o atraso da fase e destruindo totalmente os atrasos do grupo e os relacionamentos de tempo de chegada dos componentes.
Soará muito pouco claro e você não poderá distinguir a imagem espacial codificada pela gravação.
Se você fizer um teste de audição A / B às cegas, todos selecionarão os fones de ouvido não corrigidos, que pelo menos não alteram tanto os atrasos do grupo, para que seus cérebros possam se sintonizar neles.
E é por isso que os fones de ouvido ativos não tentam equalizar. É muito difícil de acertar.
É também por isso que a correção da sala digital é o nicho: porque usá-la corretamente requer medições freqüentes, difíceis / impossíveis de viver, e que os consumidores geralmente não querem saber.
Principalmente porque as ressonâncias acústicas na sala sob correção, que são principalmente parte da resposta de graves, continuam mudando levemente à medida que a pressão do ar, a temperatura e a umidade mudam, alterando ligeiramente a velocidade do som e alterando as ressonâncias para longe do que foram quando a medição foi feita.