Teoria por trás da Linear Predictive Coding (LPC)

Qual é a teoria por trás do LPC?
Por que certas implementações do LPC são consideradas mais tolerantes à quantização de ~~erros~~ de transmissão ou codificação do que outros esquemas de codificação de voz compactada?
Os métodos LPC também podem ser usados para suavização ou "previsão" de curto prazo semelhante ao uso dos métodos de filtro Kalman?
Sob quais condições ou restrições o uso do LPC é válido?

— hotpaw2
fonte

"Por que o LPC é considerado mais tolerante a erros de transmissão ou codificação do que alguns outros esquemas de codificação de voz compactada?" Quem disse isso? Não conheço muito bem o LPC, mas achei que tinha a ver com a redução da redundância, o que teria o efeito oposto.

— Endolith 23/05/12

Esta questão é enganosa , pois está em premissa falsa. Feche e retifique isso.

— Dipan Mehta

Existem várias perguntas e premissas aqui. Qual (s) você acha que precisa consertar?

— Hotdolls #

A afirmação

Why are(were) certain implementations of LPC said to be more tolerant of transmission or encoding errors quantization than other compressed voice encoding schemes?

é bastante falsa. Você pode citar qualquer referência que diga especificamente o que é melhor do que o outro?

— Dipan Mehta 25/05

Essa é realmente a minha pergunta. Ouvi isso em algum lugar, mas não sei por que isso pode ter sido afirmado.

— hotpaw2

Primeiro, dizer que a codificação preditiva linear (LPC) é "mais tolerante a erros de transmissão ou codificação" não é totalmente verdadeira. A forma em que os coeficientes são transmitidos faz uma grande diferença. Por exemplo, se os coeficientes de previsão linear forem resolvidos, eles podem ser muito sensíveis à quantização, como os coeficientes de filtro IIR de alta ordem (isso ocorre porque o filtro de síntese será IIR, mas mais sobre isso posteriormente). No entanto, se eles forem transmitidos de alguma outra forma, esse problema poderá ser mitigado facilmente.

Uma maneira é transferir os coeficientes de reflexão. Se você resolver recursivamente um filtro de previsão linear de ordem k-ésima ordem, o coeficiente de ordem mais alta em cada estágio será chamado de coeficiente de reflexão. Eles podem ser usados juntos para caracterizar completamente o sistema (o que pode ser facilmente visto pela recursão de Levinson). Na verdade, você pode usar todos eles juntos para formar um filtro de treliça. Esses filtros são frequentemente usados quando a quantização é uma preocupação, pois são muito mais robustos para contagens de bits baixas. Além disso, se a magnitude desses coeficientes de reflexão estiver limitada pela unidade, você garante um filtro estável BIBO, essencial para o LPC, onde o filtro é usado para sintetizar seu sinal. Existem outros métodos, como pares espectrais de linha, que são freqüentemente usados, mas não são

Agora, para abordar a primeira pergunta, a teoria do LPC gira em torno da modelagem do trato vocal. Essencialmente, estamos modelando a fala como vibração do ar como uma entrada para um tubo de alguma estrutura. Você pode procurar alguns recursos que detalhem muito mais esse modelo (comprimento dos tubos, intensidade do ar, estrutura etc.). Esses recursos relacionam essas estruturas diretamente aos filtros IIR, respondendo a vários estímulos, como o ruído branco, por exemplo.

Portanto, quando resolvemos os coeficientes de previsão linear, procuramos os coeficientes de modo que, se introduzirmos nosso sinal (voz, por exemplo) em um filtro FIR criado a partir dos coeficientes, obtemos ruído branco como saída. Então pense sobre o que isso significa. Estamos introduzindo um altamentesinal correlacionado e emitindo uma sequência de ruído branco. Então, com efeito, estamos removendo toda a dependência linear desse sinal. Outra maneira de analisar isso é que todas as informações significativas estão contidas nos coeficientes que removem essa dependência linear. Portanto, podemos transferir esses coeficientes (ou alguma forma deles como acima), e a extremidade receptora pode recriar o sinal. Isso é feito invertendo o filtro FIR preditivo linear para criar um filtro IIR e inserindo ruído branco. Portanto, a compressão vem da remoção dessa dependência linear e da transferência dos coeficientes. É por isso que o método Burg também é chamado de método de entropia máxima, pois visa maximizar a "aleatoriedade" ou a brancura do ruído de saída no filtro de previsão linear. Outra maneira de ver isso,

Para responder à sua pergunta final, não sei ao certo o que você está perguntando. LPC, ou codificação preditiva linear, pretende "comprimir" o sinal assumindo que ele possa ser modelado com eficiência, conforme discutido anteriormente. Você certamente pode usar a previsão linear para fazer "previsão de curto prazo", como você mencionou. Essa é a base implícita por trás dos métodos de RA de alta resolução usados para a estimativa da densidade espectral de potência. A sequência de autocorrelação pode ser recursivamente estendida de sua forma finita, desde o registro de dados limitado até o infinito, como a sequência de autocorrelação teórica da sequência não-janela. É também por isso que os métodos AR de estimativa de PSD não exibem fenômenos laterais.

— Bryan
fonte

"a teoria do LPC gira em torno da modelagem do trato vocal" Isso sempre é verdade? O FLAC usa LPC em formas de onda de áudio genéricas, não apenas em voz.

— Endolith 23/05/12

Minhas desculpas, eu aprendi originalmente através da analogia das cordas vocais como um modelo físico, de onde veio isso. Como eu disse, há lugares em que eles se aprofundam muito mais nisso. Mas você está correto, o LPC é adequado para formas de onda de áudio genéricas. Como mencionei, funciona bem em qualquer espectro impulsivo. Como corolário, funciona mal em sinais ruidosos onde o espectro é menos impulsivo (isso ocorre porque os sinais ruidosos são melhor modelados como processos ARMA).

— 22712 Bryan