Estimadores de máxima verossimilhança - Gaussiano multivariado

Contexto

O gaussiano multivariado aparece frequentemente no Machine Learning e os seguintes resultados são usados em muitos livros e cursos de ML sem as derivações.

Dados os dados na forma de uma matriz de dimensões , se assumirmos que os dados seguem uma distribuição gaussiana variável com os parâmetros mean ( ) e matriz de covariância ( ) os estimadores de máxima verossimilhança são dados por: $\mathbf{X}$ $m \times p$ $p$ $\mu$ $p \times 1$ $\Sigma$ $p \times p$

$\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}}$

$\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T$

Entendo que o conhecimento do gaussiano multivariado é um pré-requisito para muitos cursos de ML, mas seria útil ter a derivação completa de uma resposta independente de uma vez por todas, pois sinto que muitos aprendizes estão refletindo nas estatísticas. Os sites stackexchange e math.stackexchange procuram respostas.

Questão

Qual é a derivação completa dos Estimadores de Máxima Verossimilhança para o Gaussiano multivariado

Exemplos:

Essas notas de aula (página 11) sobre Análise Discriminante Linear, ou essas, fazem uso dos resultados e assumem conhecimentos prévios.

Existem também algumas postagens parcialmente respondidas ou fechadas:

— Xavier Bourret Sicotte
fonte

Respostas:

Derivando os estimadores de máxima verossimilhança

Suponha que temos vetores aleatórios, cada um com tamanho : onde cada vetor aleatório pode ser interpretado como uma observação (ponto de dados) nas variáveis . Se cada for considerado como vetores gaussianos multivariados: $m$ $p$ $\mathbf{X^{(1)}, X^{(2)},...,X^{(m)}}$ $p$ $\mathbf{X}^{(i)}$

X^{(i)} \sim N_{p} (μ, Σ)

$\mathbf{X^{(i)}} \sim \mathcal{N}_p(\mu, \Sigma)$

Onde os parâmetros são desconhecidos. Para obter sua estimativa, podemos usar o método da máxima verossimilhança e maximizar a função de verossimilhança de log. $\mu, \Sigma$

Observe que, pela independência dos vetores aleatórios, a densidade conjunta dos dados é o produto das densidades individuais , ou seja, . Tomar o logaritmo fornece a função de probabilidade de log $\mathbf{ \{X^{(i)}}, i = 1,2,...,m\}$ $\prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} ; \mu , \Sigma })$

\begin{aligned} l (μ, Σ | x^{(i)}) & = \log \prod_{i = 1}^{m} f_{X^{(i)}} (x^{(i)} | μ, Σ) \\ = \log \prod_{i = 1}^{m} \frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)) \\ = \sum_{i = 1}^{m} (- \frac{p}{2} \log (2 π) - \frac{1}{2} \log | Σ | - \frac{1}{2} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)) \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \log \prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} | \mu , \Sigma }) \\ & = \log \ \prod_{i=1}^m \frac{1}{(2 \pi)^{p/2} |\Sigma|^{1/2}} \exp \left( - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \\ & = \sum_{i=1}^m \left( - \frac{p}{2} \log (2 \pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \end{aligned}$

\begin{aligned} l (μ, Σ;) & = - \frac{m p}{2} \log (2 π) - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \end{aligned}

$\begin{aligned} l(\mu, \Sigma ; ) & = - \frac{mp}{2} \log (2 \pi) - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \end{aligned}$

Derivando $\hat \mu$

Para pegar a derivada em relação a e igual a zero, usaremos a seguinte identidade de cálculo da matriz: $\mu$

$\mathbf{ \frac{\partial w^T A w}{\partial w} = 2Aw}$ se não depende de e é simétrico. $\mathbf{w}$ $\mathbf{A}$ $\mathbf{A}$

\begin{aligned} \frac{\partial}{\partial μ} l (μ, Σ | x^{(i)}) & = \sum_{i = 1}^{m} Σ^{- 1} (μ - x^{(i)}) = 0 \\ Since Σ is positive definite \\ 0 & = m μ - \sum_{i = 1}^{m} x^{(i)} \\ \hat{μ} & = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} = \bar{x} \end{aligned}

$\begin{aligned} \frac{\partial }{\partial \mu} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \sum_{i=1}^m \mathbf{ \Sigma^{-1} ( \mu - x^{(i)} ) } = 0 \\ & \text{Since $\Sigma$ is positive definite} \\ 0 & = m \mu - \sum_{i=1}^m \mathbf{ x^{(i)} } \\ \hat \mu &= \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} \end{aligned}$

Geralmente chamado de vetor médio da amostra .

Derivando $\hat \Sigma$

A derivação do MLE para a matriz de covariância requer mais trabalho e o uso das seguintes propriedades de álgebra linear e cálculo:

O traço é invariável sob permutações cíclicas de produtos da matriz: $tr[ACB] = tr[CAB] = tr[BCA]$

Como é escalar, podemos pegar seu traço e obter o mesmo valor: $x^TAx$ $x^tAx = tr[x^TAx] = tr[x^txA]$

$\frac{\partial}{\partial A} tr[AB] = B^T$

$\frac{\partial}{\partial A} \log |A| = A^{-T}$

A combinação dessas propriedades nos permite calcular

\frac{\partial}{\partial A} x^{t} A x = \frac{\partial}{\partial A} t r [x^{T} x A] = [x x^{t}]^{T} = x^{T T} x^{T} = x x^{T}

$\frac{\partial}{\partial A} x^tAx =\frac{\partial}{\partial A} tr[x^TxA] = [xx^t]^T = x^{TT}x^T = xx^T$

Qual é o produto externo do vetor consigo mesmo. $x$

Agora podemos reescrever a função de probabilidade de log e calcular a derivada wrt (a nota é constante) $\Sigma^{-1}$ $C$

\begin{aligned} l (μ, Σ | x^{(i)}) & = C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \\ = C + \frac{m}{2} \log | Σ^{- 1} | - \frac{1}{2} \sum_{i = 1}^{m} t r [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}] \\ \frac{\partial}{\partial Σ^{- 1}} l (μ, Σ | x^{(i)}) & = \frac{m}{2} Σ - \frac{1}{2} \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} Since Σ^{T} = Σ \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \text{C} - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \\ & = \text{C} + \frac{m}{2} \log |\Sigma^{-1}| - \frac{1}{2} \sum_{i=1}^m tr[ \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)^T \Sigma^{-1} } ] \\ \frac{\partial }{\partial \Sigma^{-1}} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \frac{m}{2} \Sigma - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \ \ \text{Since $\Sigma^T = \Sigma$} \end{aligned}$

Igualando a zero e resolvendo $\Sigma$

\begin{aligned} 0 & = m Σ - \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} \\ \hat{Σ} & = \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)} - \hat{μ}) (x^{(i)} - \hat{μ})}^{T} \end{aligned}

$\begin{aligned} 0 &= m \Sigma - \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \\ \hat \Sigma & = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T \end{aligned}$

Fontes

— Xavier Bourret Sicotte
fonte

Provas alternativas, formas mais compactas ou interpretação intuitiva são bem-vindas!

— Xavier Bourret Sicotte

Na derivação para , por que precisa ser definido positivamente? Parece suficiente que seja invertível? Para uma matriz invertível , somente quando ?

μ

$\mu$

Σ

$\Sigma$

Σ

$\Sigma$

A

$A$

A x = 0

$Ax=0$

x = 0

$x=0$

— Tom Bennett

Para esclarecer, é uma matriz que pode ter componentes diagonais e não diagonais finitos indicando correlação entre vetores, correto? Se for esse o caso, em que sentido esses vetores são independentes? Além disso, por que a função de probabilidade conjunta é igual à probabilidade? A densidade da junta, , não deve ser igual à probabilidade multiplicada pelo anterior, ou seja, ?

Σ

$\Sigma$

m \times m

$m \times m$

f (x, y)

$f(x,y)$

f (x | y) f (y)

$f(x|y)f(y)$

— Mathews24 25/04

@ TomBennett, a matriz sigma é definida positivamente por definição - consulte stats.stackexchange.com/questions/52976/… para obter a prova. A identidade do cálculo da matriz requer que a matriz seja simétrica, não definida positivamente. Mas como matrizes definidas positivas são sempre simétricas e funcionam

— Xavier Bourret Sicotte

Sim, de fato - a independência entre as observações permite obter a probabilidade - a redação pode não ser clara o suficiente - essa é a versão multivariada da probabilidade. O prior ainda é irrelevante, independentemente

— Xavier Bourret Sicotte

Uma prova alternativa para que leva a derivada em relação a diretamente: $\widehat{\Sigma}$ $\Sigma$

à probabilidade de log como acima: que e usamos as propriedades cíclicas e lineares de . Para calcular , primeiro observamos que

\begin{array}{rcl} ℓ (μ, Σ) & = & C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} tr [(x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)] \\ = & C - \frac{1}{2} (m \log | Σ | + \sum_{i = 1}^{m} tr [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}]) \\ = & C - \frac{1}{2} (m \log | Σ | + tr [S_{μ} Σ^{- 1}]) \end{array}

$\begin{eqnarray} \ell(\mu, \Sigma) &=& C - \frac{m}{2}\log|\Sigma|-\frac{1}{2} \sum_{i=1}^m \text{tr}\left[(\mathbf{x}^{(i)}-\mu)^T \Sigma^{-1} (\mathbf{x}^{(i)}-\mu)\right]\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| + \sum_{i=1}^m\text{tr} \left[(\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T\Sigma^{-1} \right]\right)\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| +\text{tr}\left[ S_\mu \Sigma^{-1} \right] \right) \end{eqnarray}$

S_{μ} = \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}

$S_\mu = \sum_{i=1}^m (\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T$

tr

$\text{tr}$

\partial ℓ / \partial Σ

$\partial \ell /\partial \Sigma$

\frac{\partial}{\partial Σ} \log | Σ | = Σ^{- T} = Σ^{- 1}

$\frac{\partial}{\partial \Sigma} \log |\Sigma| = \Sigma^{-T}=\Sigma^{-1}$ pela quarta propriedade acima. Para obter a derivada do segundo termo, precisaremos da propriedade que (do livro de receitas Matrix , equação 63). Aplicando isso com , obtemos que porque e são simétricos. Então

\frac{\partial}{\partial X} tr (A X^{- 1} B) = - (X^{- 1} B A X^{- 1})^{T} .

$\frac{\partial}{\partial X}\text{tr}\left( A X^{-1} B\right) = -(X^{-1}BAX^{-1})^T.$

B = I

$B=I$

\frac{\partial}{\partial Σ} tr [S_{μ} Σ^{- 1}] = - {(Σ^{- 1} S_{μ} Σ^{- 1})}^{T} = - Σ^{- 1} S_{μ} Σ^{- 1}

$\frac{\partial}{\partial \Sigma}\text{tr}\left[S_\mu \Sigma^{-1}\right] = -\left( \Sigma^{-1} S_\mu \Sigma^{-1}\right)^T = -\Sigma^{-1} S_\mu \Sigma^{-1}$

Σ

$\Sigma$

S_{μ}

$S_\mu$

\frac{\partial}{\partial Σ} ℓ (μ, Σ) \propto m Σ^{- 1} - Σ^{- 1} S_{μ} Σ^{- 1} .

$\frac{\partial}{\partial \Sigma}\ell(\mu, \Sigma) \propto m \Sigma^{-1} - \Sigma^{-1} S_\mu \Sigma^{-1}.$ Definir isso como 0 e reorganizar fornece

\hat{Σ} = \frac{1}{m} S_{μ} .

$\widehat{\Sigma} = \frac{1}{m}S_\mu.$

Essa abordagem é mais trabalhosa que a padrão usando derivadas com relação a e requer uma identidade de rastreamento mais complicada. Eu só achei útil porque atualmente preciso derivar uma função de probabilidade modificada para a qual parece muito mais difícil usar que . $\Lambda = \Sigma^{-1}$ $\partial/{\partial \Sigma^{-1}}$ $\partial/\partial \Sigma$

— Eric Kightley
fonte

Estimadores de máxima verossimilhança - Gaussiano multivariado

Contexto

Questão

Exemplos:

Derivando os estimadores de máxima verossimilhança

Derivandoμ^μ^\hat \mu

DerivandoΣ^Σ^\hat \Sigma

Fontes

Derivando $\hat \mu$

Derivando $\hat \Sigma$