Como tirar derivada da densidade normal multivariada?

Digamos que tenho densidade normal multivariada . Eu quero obter o segundo derivado (parcial) wrt . Não sei como obter derivada de uma matriz. $N(\mu, \Sigma)$ $\mu$

O Wiki diz que pegue o elemento derivado por elemento dentro da matriz.

Estou trabalhando com a aproximação de Laplace O modo é .

registro P_{N} (θ) = registro P_{N} - \frac{1 1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1 1} (θ - \hat{θ}) .

$\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.$

\hat{θ} = μ

$\hat\theta=\mu$

Recebi como isso aconteceu?

Σ^{- 1 1} = - \frac{\partial^{2}}{\partial θ^{2}} registro p (\hat{θ} | y),

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),$

O que eu fiz:

registro P (θ | y) = - \frac{k}{2} registro 2 π - \frac{1 1}{2} registro | Σ | - \frac{1 1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1 1} (θ - \hat{θ})

$\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta)$

Então, eu levo wrt derivado para , primeiro, há uma transposição, em segundo lugar, é uma matriz. Então, eu estou preso. $\theta$

Nota: Se meu professor se deparar com isso, estou me referindo à palestra.

self-study normal-distribution matrix

— user1061210
fonte

parte do seu problema pode ser que sua expressão para a probabilidade de log tenha um erro - você tem

onde você deve ter

. Além disso, por acaso você quis dizer

| Σ |

$|\Sigma|$

\log (| Σ |)

$\log(|\Sigma|)$

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y)

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$

— macro

Sim, você está certo, desculpe. Por que há sinal negativo na frente da derivada parcial?

— User1061210

Eu estava apenas esclarecendo o sinal negativo porque, a segunda derivada negativa é a informação observada do pescador, que geralmente é de interesse. Além disso, pelo meu próprio cálculo, estou descobrindo que

\frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y) = - Σ^{- 1}

$\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$

— Macro

Então, qual é o procedimento geral para função discreta / contínua? Faça o log, escreva na forma de expansão Taylor, diferencie duas vezes wrt

. As informações de Fisher geralmente não são verdadeiras na maioria das outras densidades, certo?

θ

$\theta$

— User1061210

@user Como apontei, a segunda derivada do logaritmo deve ter autovalores não positivos. Sim, existem links entre variações e derivadas secundárias negativas, como revela a teoria da estimativa da máxima verossimilhança, informações de Fisher etc. - A Macro se referiu a isso anteriormente nesses comentários.

— whuber

Respostas:

No capítulo 2 do Matrix Cookbook, há uma boa revisão do material de cálculo matricial, que fornece muitas identidades úteis que ajudam nos problemas encontrados com probabilidades e estatísticas, incluindo regras para ajudar a diferenciar a probabilidade gaussiana multivariada.

Se você tiver um vetor aleatório que é normal multivariado com vetor médio e matriz de covariância , use a equação (86) no livro de receitas da matriz para descobrir que o gradiente de a probabilidade de log em relação a é ${\boldsymbol y}$ ${\boldsymbol \mu}$ ${\boldsymbol \Sigma}$ ${\bf L}$ ${\boldsymbol \mu}$

\begin{aligned} \frac{\partial L}{\partial μ} & = - \frac{1}{2} (\frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial μ}) \\ = - \frac{1}{2} (- 2 Σ^{- 1} (y - μ)) \\ = Σ^{- 1} (y - μ) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$

Vou deixar para você diferenciar isso novamente e encontrar a resposta para ser . $-{\boldsymbol \Sigma}^{-1}$

Como "crédito extra", use as equações (57) e (61) para descobrir que o gradiente em relação a é ${\boldsymbol \Sigma}$

\begin{aligned} \frac{\partial eu}{\partial Σ} & = - \frac{1 1}{2} (\frac{\partial registro (| Σ |)}{\partial Σ} + \frac{\partial {(y - μ)}^{'} Σ^{- 1 1} (y - μ)}{\partial Σ}) \\ = - \frac{1 1}{2} (Σ^{- 1 1} - Σ^{- 1 1} (y - μ) {(y - μ)}^{'} Σ^{- 1 1}) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align}$

Eu deixei de fora muitas etapas, mas fiz essa derivação usando apenas as identidades encontradas no livro de receitas da matriz, então deixarei para você preencher as lacunas.

Eu usei essas equações de pontuação para estimativa de probabilidade máxima, então eu sei que elas estão corretas :)

— Macro
fonte

Ótima referência - eu mesmo recomendaria. Não é uma boa referência pedagógica para alguém que não conhece álgebra matricial. O verdadeiro desafio vem de realmente trabalhar com . Uma verdadeira dor.

Σ

$\Sigma$

— probabilityislogic

Outra boa fonte de cálculo matricial é Magnus & Neudecker, amazon.com/...

— Stask

O número de referência da equação foi alterado (talvez devido a uma nova edição). A nova equação de referência é 86.

— goelakash 17/05

Eu poderia estar fora da base aqui, mas não acho que essa fórmula esteja correta. Eu tenho usado isso com exemplos reais e analisando suas diferenças finitas. Parece que a fórmula para

dá os valores de correcção para os elementos da diagonal. No entanto, as entradas fora da diagonal são metade do que deveriam ser.

\frac{\partial L}{\partial Σ}

$\frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}}$

— jjet

Você precisa se certificar de que cuida adequadamente dos elementos repetidos em , caso contrário, suas derivadas estarão incorretas. Por exemplo, (141) o Matrix Cookbook fornece uma simétrica as seguintes derivadas $\mathbf{\Sigma}$ $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial \log | Σ |}{\partial Σ} & = 2 Σ^{- 1} - (Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \log|\mathbf{\Sigma}|}{\partial \mathbf{\Sigma}}&=2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) \end{align}$

E (14) da diferenciação de funções das matrizes de covariância fornece

\begin{aligned} \frac{\partial trace (Σ^{- 1} x x^{⊤})}{\partial Σ} & = - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)}{\partial \mathbf{\Sigma}}&=-2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I) \end{align}$

$\circ$ $\mathbf{x}:=\mathbf{y}-\mathbf{\mu}$

$\mathbf{\Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{\partial}{\partial Σ} \frac{1}{2} (D \log | 2 π | + \log | Σ | + x^{⊤} Σ^{- 1 1} x)) \\ = - \frac{\partial}{\partial Σ} \frac{1 1}{2} (registro | Σ | + vestígio (Σ^{- 1 1} x x^{⊤})) \\ = - \frac{1 1}{2} (2 Σ^{- 1 1} - (Σ^{- 1 1} \circ Eu) - 2 Σ^{- 1 1} x x^{⊤} Σ^{- 1 1} + (Σ^{- 1 1} x x^{⊤} Σ^{- 1 1} \circ Eu)) \end{aligned}

$\begin{align} \frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}&=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left(D\log|2\pi|+ \log|\mathbf{\Sigma}| + \mathbf{x}^{\top}\mathbf{\Sigma}^{-1}\mathbf{x})\right)\\ &=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left( \log|\mathbf{\Sigma}| + \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)\right)\\ &=-\frac{1}{2}\left( 2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) -2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I)\right) \end{align}$

$D$ $\mathbf{x}$ $\mathbf{y}$ $\mathbf{\mu}$ $D\log|2\pi|$

$i,j^{th}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}_{ij}}$

— Lawrence Middleton
fonte

\begin{aligned} \frac{\partial eu}{\partial Σ} & = - \frac{1 1}{2} (Σ^{- 1 1} - Σ^{- 1 1} (y - μ) {(y - μ)}^{'} Σ^{- 1 1}) = UMA \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) ={\bf A} \end{align}$

B = 2 UMA - diag (UMA)

${\bf B}=2{\bf A} - \text{diag}({\bf A})$

Σ

${\boldsymbol \Sigma}$

A

${\bf A}$

B

${\bf B}$ está correto para cada entrada.

library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

— jjet
fonte

Σ

$\Sigma$