Qual é a diferença entre um campo aleatório de Markov e um campo aleatório condicional?

19

Se eu fixar os valores dos nós observados de um MRF, ele se tornará um CRF?

— alguém
fonte

Veja também: Todo campo aleatório condicional é simplesmente um campo aleatório de Markov com estrutura restrita?

— Martin Thoma

E o que é exatamente a diferença entre MRF e CRF

— Martin Thoma

E qual é a diferença entre os campos aleatórios de Markov (MRF) e os campos aleatórios condicionais (CRF)? Quando devo usar um sobre o outro?

— Martin Thoma

11

Ok, eu mesmo encontrei a resposta:

Os campos aleatórios condicionais (CRFs) são um caso especial dos campos aleatórios de Markov (MRFs).

1.5.4 Campo aleatório condicional

Um campo aleatório condicional (CRF) é uma forma de MRF que define um posterior para as variáveis x dados z, como no MRF oculto acima. Diferentemente do MRF oculto, no entanto, a fatoração na distribuição de dados P (x | z) e no P (x) anterior não é explicitada [288]. Isso permite que dependências complexas de x em z sejam gravadas diretamente na distribuição posterior, sem que a fatoração seja explicitada. (Dado P (x | z), tais fatorações sempre existem, no entanto - infinitamente muitas delas, de fato -, portanto não há sugestão de que a CRF seja mais geral que a MRF oculta, apenas que pode ser mais conveniente lidar com .)

Fonte: Blake, Kohli e Rother: campos aleatórios de Markov para processamento de visão e imagem. 2011.

Um campo aleatório condicional ou CRF (Lafferty et al. 2001), às vezes um campo aleatório discriminativo (Kumar e Hebert 2003), é apenas uma versão de um MRF onde todos os potenciais de clique estão condicionados aos recursos de entrada: [...]

A vantagem de um CRF sobre um MRF é análoga à vantagem de um classificador discriminativo sobre um classificador generativo (consulte a Seção 8.6), a saber, não precisamos “desperdiçar recursos” modelando coisas que sempre observamos. [...]

A desvantagem dos CRFs sobre os MRFs é que eles exigem dados de treinamento rotulados e são mais lentos para treinar [...]

Fonte: Kevin P. Murphy: Aprendizado de máquina: uma perspectiva probabilística

Respondendo a minha pergunta:

Se eu fixar os valores dos nós observados de um MRF, ele se tornará um CRF?

Sim. Fixar os valores é o mesmo que condicioná-los. No entanto, você deve observar que também existem diferenças no treinamento.

Assistindo a muitas palestras sobre PGM (modelos gráficos probabilísticos) na coursera me ajudou muito.

— Martin Thoma
fonte

0

Redes MRF x Bayes : Falando de maneira imprecisa (mas normalmente) , existem dois tipos de modelos gráficos: modelos gráficos não direcionados e modelos direcionados (um mais tipo, por exemplo, gráfico de Tanner). A primeira também é conhecida como rede Markov Random Fields / Markov e a rede Bayes posterior / rede Bayesiana. (Às vezes, as premissas de independência em ambas podem ser representadas por gráficos de acordes)

Markov implica a maneira como fatoriza e campo aleatório significa uma distribuição específica entre as definidas por um modelo não direcionado.

CRF $\in$ MRF : Quando algumas variáveis são observadas, podemos usar a mesma representação gráfica não direcionada (como os gráficos não direcionados) e a parametrização para codificar uma distribuição condicional $P(Y|X)$ que $Y$ é um conjunto de variáveis de destino e $X$ é uma (disjunta ) conjunto de variáveis observadas.

E a única diferença reside no fato de que para uma rede Markov padrão o termo de normalização soma mais de X e Y, mas para CRF o termo soma apenas Y.

Referência:

Modelos gráficos não direcionados (campos aleatórios de Markov)
Princípios e técnicas dos modelos gráficos probabilísticos (2009, The MIT Press)
Campos aleatórios de Markov

— Lerner Zhang
fonte

0

Vamos comparar a inferência condicional nos MRFs com a modelagem usando um CRF, estabelecendo as definições ao longo do caminho e, em seguida, abordar a questão original.

MRF

Um campo aleatório de Markov (MRF) em relação a um gráfico $G$ é

um conjunto de variáveis aleatórias (ou "elementos" aleatórios, se desejar) correspondentes aos nós em $G$ (portanto, um "campo aleatório")
com uma distribuição conjunta que é Markov em relação a $G$ $V_i$ $V_j$ $V_i$ $V_j$ $\mathcal{B}_i$ $P(\{V_i\})$ $G$

Inferência condicional sob um MRF

Como um MRF representa uma distribuição conjunta sobre muitas variáveis que obedecem às restrições de Markov, podemos calcular distribuições de probabilidade condicional, considerando os valores observados de algumas variáveis.

Por exemplo, se eu tiver uma distribuição conjunta em quatro variáveis aleatórias: IsRaining, SprinklerOn, SidewalkWet e GrassWet, na segunda-feira, talvez eu queira inferir a distribuição de probabilidade conjunta em IsRaining e SprinklerOn, pois observei SidewalkWet = False e GrassWet = Verdade. Na terça-feira, talvez eu queira inferir a distribuição de probabilidade conjunta sobre IsRaining e SprinklerOn, pois observei SidewalkWet = True e GrassWet = True.

Em outras palavras, podemos usar o mesmo modelo MRF para fazer inferências nessas duas situações diferentes, mas não diríamos que mudamos o modelo. De fato, embora tenhamos observado o SidewalkWet e o GrassWet nos dois casos descritos aqui, o próprio MRF não possui "variáveis observadas" em si --- todas as variáveis têm o mesmo status aos olhos do MRF, portanto, o MRF também modela, por exemplo, a distribuição conjunta do SidewalkWet e GrassWet.

CRF

$G$

$G$ $\{X_i\}_{i=1}^n$ $\{Y_i\}_{i=1}^m$
com uma distribuição condicional $P(\{Y_i\}_{i=1}^m|\{X_i\}_{i=1}^n)$ $G$

A diferença

$G$

designa um subconjunto de variáveis como "observado"
define apenas uma distribuição condicional em variáveis não observadas, dadas as variáveis observadas; não modela a probabilidade das variáveis observadas (se as distribuições são expressas em termos de parâmetros, isso geralmente é visto como um benefício, pois os parâmetros não são desperdiçados na explicação da probabilidade de coisas que sempre serão conhecidas)
$G$ )

$\{X_i\}$ $G$ $G'$ $\{Y_i\}$ $\{Y_i\}$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Exemplo

$Y_i$ $X_1, X_2, ... X_{n-1}$ $X_n$

$G$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Conclusão

$G$ $G$ $G$ $G$ $G$ $G$ com parâmetros do MRF expressos como a saída de funções parametrizadas das variáveis observadas, treinando os parâmetros de função para maximizar a probabilidade dos MRFs condicionais resultantes nos dados rotulados.

Além das economias potenciais de parâmetros do modelo, aumento da expressividade do modelo condicional e retenção da eficiência da inferência, um ponto importante final sobre a receita da CRF é que, para modelos discretos (e um grande subconjunto de modelos não discretos), apesar da expressividade da família CRF, a probabilidade logarítmica pode ser expressa como uma função convexa dos parâmetros da função, permitindo otimização global com descida gradiente.

Veja também: o documento original do crf e este tutorial

— user3780389
fonte