Estou lendo este artigo: tradutor skype onde eles usam CD-DNN-HMMs (redes neurais profundas dependentes de contexto com modelos de Markov ocultos). Eu posso entender a idéia do projeto e a arquitetura que eles projetaram, mas não entendo o que são os senones . Estive procurando uma definição, mas não encontrei nada
- Propomos um novo modelo dependente de contexto (CD) para reconhecimento de fala de vocabulário amplo (LVSR) que aproveita os avanços recentes no uso de redes profundas de crenças para reconhecimento por telefone. Descrevemos uma arquitetura híbrida pré-treinada do modelo Markov oculto de rede neural profunda (DNN-HMM) que treina o DNN para produzir uma distribuição sobre senones (estados de triphone vinculados) como saída
Por favor, se você puder me dar uma explicação sobre isso, eu realmente aprecio isso.
EDITAR:
Encontrei esta definição neste artigo :
Propomos modelar eventos subfonéticos com estados de Markov e tratar o estado nos modelos fonéticos ocultos de Markov como nossa unidade subfonética básica - senona . Um modelo de palavra é uma concatenação de senones dependentes do estado e os senones podem ser compartilhados entre diferentes modelos de palavras.
Eu acho que eles são usados na parte do modelo Hidden Markov da arquitetura no primeiro artigo. Eles são os estados do HMM? As saídas do DNN?