Eu gostaria de implementar um algoritmo que sincronize duas faixas de áudio.
As duas faixas são muito parecidas; você pode imaginar que são duas gravações de som (não necessariamente música) de dois microfones na mesma sala. Isso significa que eles aparecem como um sinal que passou por dois canais (lineares) diferentes, com ruídos aditivos diferentes.
Entendo que a primeira idéia pode ser procurar o pico de sua correlação cruzada, mas sou particularmente interessante em encontrar literatura sobre o assunto, mas todos os trabalhos que pude encontrar estão sincronizando duas faixas musicais (usando recursos de áudio baseados em croma ) ou sincronizar o áudio com uma pontuação. Eles também assumem que pode haver distorção do tempo, o que é uma suposição desnecessária no meu caso.