Modelo de Markov oculto vs Modelo de transição de Markov vs Modelo de espaço de estado ...?

Para minha tese de mestrado, estou trabalhando no desenvolvimento de um modelo estatístico para as transições entre diferentes estados, definido pelo status sorológico. Por enquanto, não darei muitos detalhes nesse contexto, pois minha pergunta é mais geral / teórica. Enfim, minha intuição é que eu deveria estar usando um Hidden Markov Model (HMM); o problema que estou enfrentando ao examinar a literatura e outras pesquisas de base necessárias para formular meu modelo é a confusão sobre a terminologia e as diferenças exatas entre os diferentes tipos de modelos de processos ocultos. Só tenho uma vaga noção do que os distingue (exemplos a seguir). Além disso, parece-me que, pelo menos pelo que vi na literatura, existe um vocabulário muito fora do padrão construído em torno desse tipo de modelagem,

Então, eu esperava que as pessoas pudessem me ajudar a desambiguar alguns desses termos para mim. Tenho várias perguntas, mas acho que, à medida que uma ou duas forem respondidas satisfatoriamente, o restante ficará desemaranhado como resultado. Espero que isso não seja muito demorado; se um moderador quiser que eu divida isso em várias postagens, eu o farei. De qualquer forma, coloquei minhas perguntas em negrito, seguidas pelos detalhes da pergunta que descobri durante minha pesquisa na literatura.

Portanto, em nenhuma ordem específica:

1) O que exatamente é um "modelo de processo oculto"?

Tenho operado com a impressão de que "modelo de processo oculto" é uma espécie de termo genérico que pode ser usado para descrever vários tipos diferentes de modelos estatísticos, todas descrições essencialmente probabilísticas de dados de séries temporais geradas por "um sistema de sobreposição, processos potencialmente ocultos, linearmente aditivos "([1]). De fato, [2] define um "modelo de processo oculto" como "um termo geral que se refere a um modelo de espaço de estado ou a um modelo de Markov oculto". [1] parece inferir que um modelo de Markov oculto é um subtipo de modelos de processos ocultos especificamente voltados para a inferência em estados binários; a implicação básica parece-me que um modelo de processo oculto é uma generalização de um modelo oculto de Markov. Às vezes, vejo "modelo de processo oculto" E a frase "

Esta intuição da minha parte está correta? Caso contrário, alguém tem uma referência que delineie mais claramente esses métodos?

2) Qual é a diferença entre um modelo Markov oculto e um modelo de espaço de estado?

Voltando novamente a [2] (apenas porque o artigo vem com um glossário claro de termos, não porque o artigo em si parece ser particularmente autoritário; é apenas uma fonte conveniente de definições de uma frase), a diferença parece ser que um modelo de Markov oculto é um tipo específico de modelo de espaço de estados no qual os estados são markovianos (não parece haver uma restrição definitiva na ordem do processo de Markov; isto é, primeira ordem, ..., k-ordem). Aqui, um modelo de espaço de estados é definido como "Um modelo que executa duas séries temporais em paralelo, um captura a dinâmica dos estados verdadeiros (latentes) e o outro consiste em observações feitas a partir desses estados subjacentes, mas possivelmente desconhecidos". Se esses estados também exibirem a propriedade Markov, será um modelo de Markov oculto.

No entanto, [3] define a diferença entre os modelos de espaço de estados e os modelos de Markov ocultos como relacionados às características do estado latente. Aqui, um modelo de Markov oculto lida com estados discretos, enquanto os modelos de espaço de estado lidam com estados contínuos; caso contrário, eles são conceitualmente idênticos.

Essas parecem-me duas definições muito diferentes. Sob um, o Hidden Markov Model é um subtipo de modelo de espaço de estado, enquanto no outro são apenas instâncias diferentes de uma classe mais ampla de modelos de processos ocultos. Qual destes está correto? Minha intuição me leva a seguir [3] em oposição a [2], mas não consigo encontrar uma fonte autorizada que apóie isso.

3) O que é um "modelo de transição de Markov"?

Outro termo que surgiu em muitas fontes é "modelo de transição de Markov". Não consegui encontrar essa frase em nenhum livro, mas ela aparece muito em artigos de periódicos (basta conectá-la ao Google para confirmar). Não consegui encontrar uma definição rigorosa do termo (todo artigo que encontro cita outro artigo, que cita outro, etc., me enviando por uma toca de coelho do PubMed que não leva a lugar nenhum). Minha impressão do contexto é que é um termo muito geral para se referir a qualquer modelo no qual o objeto de inferência seja a transição entre estados que seguem um processo de Markov, e que um Modelo de Markov oculto pode ser considerado um tipo específico de modelo de transição de Markov . [4], no entanto, parece usar o modelo de transição, Hidden Markov Model, e vários termos semelhantes de forma intercambiável.

Por outro lado, [5] fala sobre os modelos de transição de Markov e os modelos de Markov ocultos de maneira um pouco diferente. Os autores declaram: "Os modelos de transição fornecem um método para resumir a dinâmica dos entrevistados, útil para interpretar resultados de modelos Markov ocultos mais complexos". Não entendo completamente o que eles querem dizer com essa frase e não consigo encontrar uma justificativa para isso em outras partes do artigo. No entanto, eles parecem sugerir que os modelos de transição de Markov usam o tempo como uma variável contínua, enquanto os modelos ocultos de Markov usam o tempo como uma variável discreta (eles não dizem isso diretamente; eles dizem que usam o pacote R 'msm' para se adaptar à transição de Markov modelos e, posteriormente, descrevem 'msm' como tratando o tempo continuamente, em contraste com o pacote R para HMMs).

4) Onde outros conceitos, por exemplo, Redes Bayesianas Dinâmicas, se encaixam?

Segundo a Wikipedia, uma rede dinâmica bayesiana é uma "generalização de modelos ocultos de Markov e filtros de Kalman". Em outros lugares, vi modelos de Markov ocultos definidos como um caso especial de uma Rede Bayesiana Dinâmica ", que todo o estado do mundo é representado por uma única variável de estado oculto" ( Definição do sistema Bayesiano dinâmico e sua relação com o HMM? ) . Eu geralmente entendo esse relacionamento, e é bem explicado por [6].

No entanto, estou tendo dificuldade para entender como esse relacionamento se encaixa no quadro mais amplo das coisas. Ou seja, dada essa relação entre HMMs e DBNs, como os modelos de espaço de estado e os processos ocultos estão relacionados aos dois? Como todos esses tipos diferentes de métodos se inter-relacionam, considerando que parecem haver várias "generalizações" de modelos ocultos de Markov?

Referências:

[1] Tom M. Mitchell, Rebecca Hutchinson, Indrayana Rustandi. "Modelos de processos ocultos". 2006. CMU-CALD-05-116. Universidade Carnegie Mellon.

[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Remi Choquet e Roger Pradel. "Estimando parâmetros demográficos usando modelos dinâmicos de processo oculto". Biologia Teórica da População. 2012. 82 (4): 307-316.

Barbara Engelhardt. "Modelos de Markov ocultos e modelos de espaço de estado". STA561: Aprendizado probabilístico de máquina. Universidade Duke. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf

[4] Jeroen K. Vermunt. "Modelagem de Markov latente multinível em tempo contínuo com uma aplicação à análise de dados de avaliação de humor ambulatorial". Workshop de Estatísticas Sociais. 2012. Universidade de Tilburg. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf

[5] Ken Richardson, David Harte e Kristie Carter. "Compreendendo as transições de saúde e força de trabalho: aplicando modelos de Markov aos dados longitudinais do SoFIE". Série de Pesquisa Estatística Oficial. 2012.

[6] Zoubin Ghahramani. "Uma introdução aos modelos ocultos de Markov e redes bayesianas". Jornal de reconhecimento de padrões e inteligência artificial. 2001. 15 (1): 9-42.

machine-learning self-study hidden-markov-model

— Ryan Simmons
fonte

Você também pode experimentar uma rede neural recorrente. No reconhecimento de fala, alguns os utilizam com sucesso como substituto de um HMM.

— Albert

Obrigado pela sugestão. No momento, eu preferiria esclarecer minhas perguntas sobre essas técnicas antes de começar a estudar novas.

— Ryan Simmons

Eles se referem à mesma coisa. Por favor, veja scholarpedia.org/article/State_space_model Sangdon

@Ryan Simmons Acho que seria uma boa ideia conferir os vídeos de mathematicsmonk (também conhecidos como Jeffrey Miller) sobre cadeias de markov e modelos de markov ocultos no youtube.

— Jimboy

Como você provavelmente já entregou sua tese até agora, gostaria de responder a essa pergunta? Eu gostaria que um especialista respondesse aqui, o que provavelmente se aplica também às quase 800 outras pessoas que leram esta pergunta.

— Ulf Aslak

O seguinte é citado no site da Scholarpedia :

O modelo de espaço de estados (SSM) refere-se a uma classe de modelo gráfico probabilístico (Koller e Friedman, 2009) que descreve a dependência probabilística entre a variável de estado latente e a medida observada. O estado ou a medição pode ser contínuo ou discreto. O termo “espaço de estado” se originou na década de 1960 na área de engenharia de controle (Kalman, 1960). O SSM fornece uma estrutura geral para analisar sistemas dinâmicos determinísticos e estocásticos que são medidos ou observados através de um processo estocástico. A estrutura do SSM foi aplicada com sucesso em engenharia, estatística, ciência da computação e economia para resolver uma ampla gama de problemas de sistemas dinâmicos. Outros termos usados para descrever os SSMs são modelos de Markov ocultos (HMMs) (Rabiner, 1989) e modelos de processos latentes. O SSM mais bem estudado é o filtro Kalman,

— user93693
fonte

Eu e Alan Hawkes escrevemos bastante sobre processos agregados de Markov com estados discretos em tempo contínuo. Nosso material tem sido sobre o problema de interpretar observações de moléculas de canal iônico único e inclui um tratamento exato de eventos curtos perdidos. Teoria semelhante também funciona na teoria da confiabilidade. Pode muito bem ser adaptado a outros problemas. Consulte http://www.onemol.org.uk/?page_id=175 para obter referências.

— David Colquhoun
fonte