Como lidar com o baixo nível fundamental ao usar o AMDF para extração de pitch?

Estou usando a Função de diferença de magnitude média para estimar a frequência fundamental de um sinal de áudio quase periódico. O AMDF é definido como

D_{n} = \frac{1}{N - n} \sum_{k = n}^{N - 1} | S_{k} - S_{k - n} |

$D_n = \frac{1}{N-n}\sum_{k=n}^{N-1}|S_k - S_{k-n}|$

onde $N$ é o comprimento do sinal. Esta função exibe um mínimo quando o sinal é deslocado em uma quantidade igual ao seu período.

Este é o código que estou usando para extrair o pitch (no Matlab):

 a = amdf(f);
 a = a/max(a);
 [p l] = findpeaks(-a, 'minpeakprominence', 0.6);
 pitch = round(sample_freq/l(1);

No entanto, estou lidando com um sinal de áudio em que a frequência fundamental é muito baixa:

Como conseqüência, surge um problema de duplicação de afinação: o mínimo detectado corresponde à metade do período do sinal (ou seja, o segundo harmônico):

Tentei extrair o pico maior e não apenas o primeiro, mas às vezes esse problema permanece. Como posso melhorar meu código e / ou a função AMDF para lidar com problemas básicos?

audio pitch fundamental-frequency

— firion
fonte

A psicoacústica e a percepção humana influenciam o tom percebido e a incerteza da oitava. Pode ser necessário experimentar para determinar sob quais condições o maior pico de AMDF faz uma diferença audível.

— hotpaw2

quão baixas são suas frequências? existe algum exemplo para eu ouvir?

— ederwander

É o que chamamos no negócio de detecção de pitch, o " problema da oitava ".

Primeiro de tudo, eu mudaria o AMDF para ASDF. E eu não reduziria o tamanho da janela à medida que o atraso aumenta. (Além disso, estou mudando a notação para o que considero mais convencional. " " é um sinal de tempo discreto.) $x[n]$

A função de diferença quadrática média (ASDF) de na vizinhança da amostra é: $x[n]$ $x[n_0]$

Q_{x} [k, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} {(x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋] - x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋ + k])}^{2}

$Q_x[k, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \left(x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor] \ - \ x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor + k] \right)^2$

é afunção e, se for par, então $\left\lfloor \cdot \right\rfloor$ floor() $k$ . $\left\lfloor \frac{k}{2}\right\rfloor = \left\lfloor \frac{k+1}{2}\right\rfloor = \frac{k}{2}$

Agora, expanda o quadrado e considere a aparência dos somatórios como (não que esteja indo para o infinito, mas para lhe dar uma idéia se for grande). O ASDF está diretamente relacionado à autocorrelação. É essencialmente a autocorrelação virada de cabeça para baixo. Estes passos eu deixarei para você. dê uma olhada nesta resposta. $N \to \infty$ $N$ $N$

Então agora considere esta "autocorrelação" de comprimento finito (na vizinhança da amostra ) definida no ASDF: $x[n_0]$

R_{x} [k, n_{0}] = R_{x} [0, n_{0}] - \frac{1}{2} Q_{x} [k, n_{0}]

$R_x[k,n_0] = R_x[0,n_0] - \tfrac12 Q_x[k, n_0]$

Onde

R_{x} [0, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} (x [n + n_{0} - ⌊ \frac{N}{2} ⌋])^{2}

$R_x[0, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \Big(x[n+n_0-\left\lfloor \tfrac{N}{2}\right\rfloor]\Big)^2$

Desde e para todos os atrasos , isso significa que para todos os atrasos . $Q_x[0, n_0] = 0$ $Q_x[k, n_0] \ge 0$ $k$ $R_x[k, n_0] \le R_x[0, n_0]$ $k$

Suponha por um minuto que seja periódico com o período (e seja um número inteiro), então $x[n]$ $P$ $P$

x [n + P] = x [n] \forall n

$x[n+P] = x[n] \quad \forall n$

e e $Q_x[mP, n_0] = 0$ para qualquer número inteiro de períodos ( é um inteiro). Então você obtém um pico em e em igual a qualquer outro múltiplo de se $R_x[mP, n_0] = R_x[0, n_0] \ge R_x[k, n_0]$ $m$ $k=0$ $k$ $P$ é periódico. Se nãoforperfeitamente periódico, o que poderíamos esperar é o maior pico em , outro pico (mas um pouco menor) em (o período que estamos procurando) e picos progressivamente menores para múltiplos maiores de . $x[n]$ $x[n]$ $k=0$ $k=P$ $P$

Portanto, o problema da oitava ocorre devido a algumas razões. Primeiro de tudo, não é necessariamente um número inteiro. Esse é um problema de interpolação, não é grande coisa. $P$

A segunda razão e o problema mais difícil é o da sub-harmônica . Considere que você está ouvindo um belo tom periódico exatamente a A-440 Hz e soa como um A que está 9 semitons acima do meio C. Agora, suponha que alguém adicione ao som uma amplitude muito pequena (como 60 dB) A -220? Como será e matematicamente qual será o período "verdadeiro"?

Escolhendo o pico "certo" para o período.

Digamos que você execute sua anotação através de um filtro de bloqueio de DC, de modo que a média de seja zero. Acontece que faz com que a média da autocorrelação para cada também seja zero (ou próxima se for grande). Isso significa que deve somar (acima de ) cerca de zero, o que significa que há tanta área acima de zero quanto abaixo. $x[n]$ $R_x[k, n_0]$ $n_0$ $N$ $R_x[k, n_0]$ $k$

Ok, então representa a potência de nas proximidades de e deve ser não negativo. nunca excede mas pode ficar tão grande quanto quando é periódico. $R_x[0, n_0]$ $x[n]$ $n=n_0$ $R_x[k, n_0]$ $R_x[0, n_0]$ $x[n]$ se $R_x[P, n_0] = R_x[0, n_0]$ . Portanto, se é periódico com o período e você tem um monte de picos espaçados por e você tem uma idéia de quão altos devem ser esses picos. E se o componente DC de for zero, significa entre os picos, eledeveter valores negativos. $x[n+P]=x[n]$ $x[n]$ $P$ $P$ $R_x[k, n_0]$

Se era "quase periódico", um ciclo de parecerá muito com um ciclo adjacente, mas não tanto quanto um ciclo de mais abaixo no sinal no tempo. Isso significa que o primeiro pico será maior que o segundo em ou o terceiro $x[n]$ $x[n]$ $x[n]$ $R_x[P, n_0]$ $R_x[2P, n_0]$ $R_x[3P, n_0]$ . Pode-se usar a regra para sempre escolher o pico mais alto e esperar que o pico mais alto seja sempre o primeiro. Mas, por causa de sub-harmônicos inaudíveis, às vezes não é esse o caso. Às vezes, o segundo ou possivelmente o terceiro pico é um pouco mais alto. Além disso, como o período provavelmente não é um número inteiro de amostras, mas em é sempre um número inteiro, portanto o pico verdadeiro provavelmente estará entre os valores inteiros de . Mesmo se você interpolar onde está o pico suave (o que eu recomendo e a interpolação quadrática é boa o suficiente) e quão alto é realmente entre o número inteiro $P$ $k$ $R_x[k, n_0]$ $k$ $k$ , seu alg de interpolação pode atingir um pico um pouco mais alto ou um pouco mais baixo do que realmente é. Portanto, escolher o pico absolutamente mais alto pode resultar na escolha espúria do segundo sobre o primeiro pico (ou vice-versa) quando você realmente queria o outro.

Então, de alguma forma, você precisa reduzir os picos ao aumentar para que o primeiro pico tenha uma pequena vantagem sobre o segundo, e o segundo sobre o quarto (a próxima oitava abaixo), etc. Como você faz isso? $k$

Para fazer isso, multiplicando com uma função decrescente de de modo que o pico a é reduzido por algum factor, em relação a um pico idêntica em . Acontece que a função de energia (não a exponencial) faz isso. então calcule $R_x[k, n_0]$ $k$ $k=2P$ $k=P$

k^{- α} R_{x} [k, n_{0}]

$k^{-\alpha} \ R_x[k, n_0]$

Portanto, se era perfeitamente periódico com o período e ignorava problemas de interpolação para não inteiro , então $x[n]$ $P$ $P$

R_{x} [2 P, n_{0}] = R_{x} [P, n_{0}]

$R_x[2P, n_0] = R_x[P, n_0]$

mas

\begin{aligned} (2 P)^{- α} R_{x} [2 P, n_{0}] & = \\ (2 P)^{- α} R_{x} [P, n_{0}] & < P^{- α} R_{x} [P, n_{0}] \end{aligned}

$\begin{align} (2P)^{-\alpha} R_x[2P, n_0] & = \\ (2P)^{-\alpha} R_x[P, n_0] & < P^{-\alpha} R_x[P, n_0] \\ \end{align}$

O fator pelo qual o pico de um tom de uma oitava mais baixa é reduzido é a razão

\frac{(2 P)^{- α} R_{x} [2 P, n_{0}]}{P^{- α} R_{x} [P, n_{0}]} = \frac{(2 P)^{- α}}{P^{- α}} = 2^{- α}

$\frac{(2P)^{-\alpha} R_x[2P, n_0]}{P^{-\alpha} R_x[P, n_0]} = \frac{(2P)^{-\alpha}}{P^{-\alpha}} = 2^{-\alpha}$

$\alpha$

2^{- α} = 0.99

$2^{-\alpha} = 0.99$

Essa é a maneira consistente de ponderar, desenfatizar ou prejudicar o pico correspondente ao tom sub-harmônico uma oitava abaixo.

$\alpha$

— Robert Bristow-Johnson
fonte

Para responder à sua última pergunta: se você adicionar uma amplitude de 220 Hz, o tom será de 220 Hz, onde 440 Hz é o primeiro harmônico após o fundamental (matematicamente falando). Meu caso é semelhante, mas também existem harmônicos mais altos, de modo que o fundamental ausente não é um problema do ponto de vista perceptivo. Não entendo como a substituição do AMDF pelo ASDF poderia resolver o problema da oitava

— Firion

mas a outra metade da pergunta é * "como será o som"? responda isso e depois vamos ver o que você deseja que o seu detector de pitch faça.

— Robert Bristow-johnson

R_{x} [k, n_{0}]

$R_x[k,n_0]$

— Robert bristow-johnson

Se você não possui outros harmônicos mais altos, mas apenas o de 440 Hz e o tom de 220 Hz é suficientemente baixo, você ouvirá um tom de 440 Hz. Acima de algum nível (não sei qual), você ouvirá também o tom de 220 Hz e, portanto, um tom de 220 Hz.

— Firion #

há uma razão pela qual eu disse -60 dB. Agora, o que você quer que o seu detector de pitch diga, que é uma nota de 220 Hz ou 440 Hz ou algo mais?

— 224166 Robinson Bristow-johnson

Heuristicamente, a frequência fundamental da fala sonora estará no intervalo [70, 400] Hz. Portanto, o primeiro passo seria aplicar um filtro passa-banda para isolar aproximadamente essa banda.

Em segundo lugar, você pode aplicar uma função de ponderação ao espectro de potência. Perto do fundamental, o peso deve estar próximo de 1, enquanto mais próximo ao final da banda, o peso deve estar próximo de 0. Esse peso é normalizado, é claro. Eu recomendaria algo super-linear: quadrático, quadrático, etc - para realmente matar as oitavas.

— The Dude
fonte

Como posso aplicar o peso? Não sei onde está o fundamental. Além disso, o meu sinal é uma nota do instrumento, assim que a escala é maior

— Firion