Prova de que modelos CRF e modelos logísticos são funções convexas

8

Onde posso encontrar uma boa prova de que os modelos baseados em CRF e os modelos baseados em regressão logística são convexos? Existe um truque geral para testar / provar que um modelo ou função objetiva é convexa?

logistic optimization

— euphoria83
fonte

7

Um truque é reescrever funções objetivas em termos de funções que são conhecidas por serem convexas.

A função objetiva do modelo log-linear treinado para ML é uma soma das probabilidades logarítmicas negativas; portanto, é suficiente mostrar que a probabilidade logarítmica negativa para cada ponto de dados é convexa.

Considerando o ponto de dados fixo, podemos escrever seu termo de probabilidade logarítmica negativo como

- ⟨ θ, ϕ (y) ⟩ + \log \sum_{y} \exp (⟨ θ, ϕ (y) ⟩)

$-\langle \theta,\phi(y)\rangle+\log \sum_y \exp(\langle \theta,\phi(y)\rangle)$

O primeiro termo é linear, portanto, é suficiente mostrar que o segundo termo, conhecido como normalizador de log, é convexo.

$f(\mathbf{g}(\mathbf{\theta}))$ $f(\mathbf{y})=\log \sum_y \exp y$ $g_y(\theta)=\langle \mathbf{\theta},\phi(y)\rangle$ $g$ $f$

$\phi$

$g(\phi)=\log(Z(\theta+\phi))-\log(Z(\theta))$ $\theta$ $\mathbf{0}$

Não consegui encontrar a prova completa da equivalência, geralmente as pessoas a omitem porque são apenas várias etapas da álgebra pouco inspiradora. Uma derivação muito concisa do espaço de saída contínuo está na página 5 da tese de "Modelos gráficos" da Xinhua Zhang . Eu acredito que vi uma derivação completa nos "Fundamentos das famílias exponenciais estatísticas" de Lawrence D. Brown

— Yaroslav Bulatov
fonte

2

Primeiro, a convexidade não é apenas um recurso de uma função, mas uma função e o domínio sobre o qual é definida.

Para abordar sua pergunta mais diretamente, outro truque (outra formulação) é calcular a matriz hessiana de sua função de probabilidade. Uma função por wiki de uma função contínua, duas vezes diferenciável de várias variáveis é convexa em um conjunto convexo se e somente se sua matriz Hessiana for semidefinida positiva no interior do conjunto convexo .

Como o Hessiano é simétrico real, basta ter domínio diagonal para ser PSD (isso é óbvio para mostrar no modelo logístico).

— user603
fonte