Atualmente, a transcrição de música polifônica não parece ser um problema resolvido.
Que tal o inverso de uma pequena parte do problema. Existe algum tipo de característica espectral (de um STFT) que possa ser usada para eliminar alguns acordes musicais do espaço de probabilidade? (por exemplo, esse trecho de som provavelmente não contém nenhum acorde C #, ou qualquer tipo de acorde menor diminuto, ou esta é uma nota única, não um acorde etc.)
Suponha que o trecho de áudio seja mais ou menos estacionário (ataque temporário removido etc.) e que conotações para a maioria ou todas as notas individuais estejam provavelmente presentes. (E esta pergunta não é sobre acordes invertidos.)