Respostas:
A tarefa de capturar uma gravação de áudio longa e contínua e dividi-la em partes em que apenas um falante está falando - sem nenhum conhecimento prévio sobre as características de voz de cada falante - é chamada de "Diarização do falante". Você pode encontrar links para o código de pesquisa na página da wikipedia .
Se você possui gravações anteriores de cada voz e prefere fazer a classificação, esse é um problema ligeiramente diferente (reconhecimento ou identificação do alto-falante). As ferramentas de software disponíveis aqui (observe que os pacotes de reconhecimento de voz para fins gerais, como Sphinx ou HTK, são flexíveis o suficiente para serem persuadidos a fazê-lo).