Sobre esse assunto, recomendo que você leia um artigo muito bom de James Baker e outros responsáveis pela introdução do HMM na fala:
Uma perspectiva histórica do reconhecimento de fala
http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract
O uso de modelos de Markov para representar o conhecimento da linguagem foi controverso. Os lingüistas sabiam que nenhuma linguagem natural poderia ser representada mesmo pela gramática livre de contexto, muito menos por uma gramática finita do estado. Da mesma forma, os especialistas em inteligência artificial tinham mais dúvidas de que um modelo tão simples quanto um processo de Markov seria útil para representar as fontes de conhecimento de nível superior recomendadas no relatório Newell. No entanto, há uma diferença fundamental entre supor que a própria linguagem seja um processo de Markov e uma linguagem de modelagem como uma função probabilística de um processo oculto de Markov. O último modelo é um método de aproximação que não faz suposições sobre a linguagem, mas fornece uma receita ao designer na escolha do que representar no processo oculto. A propriedade definitiva de um processo de Markov é que, dado o estado atual, as probabilidades de eventos futuros serão independentes de qualquer informação adicional sobre o histórico do processo. Essa propriedade significa que, se houver alguma informação sobre o histórico passado do processo observado (como as palavras observadas e as subpalavras), o designer deve codificar essas informações com estados distintos no processo oculto. Verificou-se que cada um dos níveis da hierarquia de Newell poderia ser representado como uma função probabilística de um processo oculto de Markov para um nível razoável de aproximação. Para a modelagem de linguagem de ponta, a maioria dos sistemas ainda usa os modelos estatísticos de linguagem N-gram e as variantes, treinadas com as técnicas básicas de contagem ou estilo EM. Esses modelos se mostraram extraordinariamente poderosos e resistentes. Contudo, o N-grama é um modelo altamente simplista para linguagem humana realista. De maneira semelhante ao aprendizado profundo para melhorar significativamente a qualidade da modelagem acústica, as redes neurais recorrentes também melhoraram significativamente o modelo de linguagem N-gram. Vale a pena notar que nada supera um corpora de texto enorme que corresponde ao domínio do aplicativo para a maioria dos aplicativos de fala real.
No geral, o modelo de Markov é um modelo bastante genérico para decodificar o canal de caixa preta com suposição muito relaxada na transmissão, portanto, é um ajuste perfeito para o reconhecimento de fala, no entanto, a questão permanece o que codificar como um estado de fato. É claro que os estados devem ser objetos mais complexos do que o que assumimos agora (apenas algumas palavras anteriores). É uma pesquisa em andamento para revelar a verdadeira natureza dessa estrutura.