Estou intrigado com o conceito de um modelo de entropia máxima de Markov (MEMM) e estou pensando em usá-lo para um etiquetador de parte do discurso (POS). No momento, estou usando um classificador convencional de máxima entropia (ME) para marcar cada palavra individualmente. Isso usa vários recursos, incluindo as duas tags anteriores.
Os MEMMs usam o algoritmo Viterbi para encontrar o caminho ideal através da cadeia de Markov (ou seja, para encontrar um conjunto ótimo completo de tags para a sentença, em vez dos ótimos individuais para cada palavra). Lendo sobre isso, parece ter uma maravilhosa elegância e simplicidade. No entanto, cada estágio depende apenas dos "resultados" do estágio anterior (ou seja, conforme uma Cadeia de Markov).
No entanto, meu modelo ME usa os dois estágios anteriores (ou seja, as tags das duas palavras anteriores). Parece que tenho duas abordagens possíveis:
Como na implementação convencional do Viterbi, use um conjunto de caminhos armazenados de acordo com um estágio (o anterior). Meu classificador ME usaria este e um estágio 'congelado' antes disso (congelado no caminho em consideração) para produzir a função de transferência.
Ou escrevo o algoritmo para acompanhar dois estágios. Isso é mais complicado e não seria mais um verdadeiro modelo de Markov, porque cada função de transferência (ou seja, do modelo ME) dependeria dos dois estágios anteriores e não de um estágio.
Parece-me que o segundo será mais preciso, embora mais complicado.
Ainda não encontrei exemplos disso durante minha pesquisa na literatura. Foi tentado? A abordagem em dois estágios melhorou a precisão geral?