Biblioteca para diferenciar as pessoas pelo timbre de voz

Digamos que haja 3 pessoas na sala. Cada um deles tem um timbre de voz único. Quero reconhecer as pessoas pelo timbre e saber quem está falando.

audio voice

— Dmitry
fonte

A tarefa de capturar uma gravação de áudio longa e contínua e dividi-la em partes em que apenas um falante está falando - sem nenhum conhecimento prévio sobre as características de voz de cada falante - é chamada de "Diarização do falante". Você pode encontrar links para o código de pesquisa na página da wikipedia .

Se você possui gravações anteriores de cada voz e prefere fazer a classificação, esse é um problema ligeiramente diferente (reconhecimento ou identificação do alto-falante). As ferramentas de software disponíveis aqui (observe que os pacotes de reconhecimento de voz para fins gerais, como Sphinx ou HTK, são flexíveis o suficiente para serem persuadidos a fazê-lo).

— pichenettes
fonte

Uau! Obrigado por uma resposta tão extensa. Estou interessado em fazer isso ao vivo, basicamente detectando quando e quem está falando e talvez escrevendo isso em um arquivo separado, ou apenas escrevendo para registrar quando e quem falou.

— Dmitry

Você encontrou alguma biblioteca que funcione em tempo real. Me deparei com a API do IBM Watson Speech Recognition, mas não é de código aberto.

— subtleseeker