Como garantir propriedades da matriz de covariância ao ajustar o modelo normal multivariado usando a máxima verossimilhança?

22

Suponha que eu tenha o seguinte modelo

y_{i} = f (x_{i}, θ) + ε_{i}

$y_i=f(x_i,\theta)+\varepsilon_i$

onde , é um vetor de variáveis explicativas, são os parâmetros da função não linear e , onde é naturalmente matriz. $y_i\in \mathbb{R}^K$ $x_i$ $\theta$ $f$ $\varepsilon_i\sim N(0,\Sigma)$ $\Sigma$ $K\times K$

O objetivo é o usual para estimar e . A escolha óbvia é o método de máxima verossimilhança. A probabilidade de log para este modelo (assumindo que temos uma amostra ) parece $\theta$ $\Sigma$ $(y_i,x_i),i=1,...,n$

l (θ, Σ) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log det Σ - \sum_{i = 1}^{n} (y_{i} - f (x_{i}, θ))^{'} Σ^{- 1} (y - f (x_{i}, θ)))

$l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta)))$

Agora isso parece simples, a probabilidade de log é especificada, inserida em dados e usa algum algoritmo para otimização não linear. O problema é como garantir que $\Sigma$ seja definitivo positivo. Usar, por exemplo, optimem R (ou qualquer outro algoritmo de otimização não linear) não garante que $\Sigma$ seja definitivo positivo.

Portanto, a questão é como garantir que $\Sigma$ permaneça positivo definitivamente? Eu vejo duas soluções possíveis:

Reparametrize $\Sigma$ como $RR'$ que $R$ é uma matriz triangular superior ou simétrica. Então $\Sigma$ sempre será positivo-definido e $R$ pode ser irrestrito.
Use a probabilidade do perfil. Derive as fórmulas para e . Comece com e itere , até convergência. $\hat\theta(\Sigma)$ $\hat{\Sigma}(\theta)$ $\theta_0$ $\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})$ $\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})$

Existe alguma outra maneira e quanto a essas duas abordagens, elas funcionarão, são padrão? Isso parece um problema bastante comum, mas a pesquisa rápida não me deu nenhuma dica. Eu sei que a estimativa bayesiana também seria possível, mas no momento eu não gostaria de me engajar nela.

maximum-likelihood optimization covariance

— mpiktas
fonte

Eu tenho o mesmo problema em um algoritmo de Kalman, mas o problema é muito mais complicado e não é tão fácil de usar o truque de Hamilton. Gostaria de saber então se uma coisa mais simples a fazer seria simplesmente usar . Dessa forma, forço o código a não dar erro e não altero a solução. Isso também tem o benefício de forçar esse termo a ter o mesmo sinal que a parte final da probabilidade. Alguma ideia?

\log (det Σ + 1)

$\log (\det \Sigma+1)$

— econ_pipo 12/09

6

Supondo que, ao construir a matriz de covariância, você cuide automaticamente do problema de simetria, sua probabilidade de log será quando não for definido positivamente devido ao termo no modelo certo? Para evitar um erro numérico se eu pré-calcularia e, se não for positivo, torne a probabilidade do log igual a -Inf, caso contrário continue. Você deve calcular o determinante de qualquer maneira, para que isso não esteja lhe custando nenhum cálculo extra. $-\infty$ $\Sigma$ $\log {\rm det} \ \Sigma$ ${\rm det} \ \Sigma < 0$ ${\rm det} \ \Sigma$

— Macro
fonte

5

Como se vê, você pode usar a probabilidade máxima do perfil para garantir as propriedades necessárias. Você pode provar que para um dado , é maximizada por $\hat\theta$ $l(\hat\theta,\Sigma)$

\hat{Σ} = \frac{1}{n} \sum_{i = 1}^{n} {\hat{ε}}_{i} {\hat{ε}}_{i}^{'},

$\hat\Sigma=\frac{1}{n}\sum_{i=1}^n\hat{\varepsilon}_i\hat{\varepsilon}_i',$

Onde

{\hat{ε}}_{i} = y_{i} - f (x_{i}, \hat{θ})

$\hat{\varepsilon}_i=y_i-f(x_i,\hat\theta)$

Então é possível mostrar que

\sum_{i = 1}^{n} (y_{i} - f (x_{i}, \hat{θ}))^{'} {\hat{Σ}}^{- 1} (y - f (x_{i}, \hat{θ}))) = c o n s t,

$\sum_{i=1}^n(y_i-f(x_i,\hat\theta))'\hat\Sigma^{-1}(y-f(x_i,\hat\theta)))=const,$

portanto, precisamos apenas maximizar

l_{R} (θ, Σ) = - \frac{n}{2} \log det \hat{Σ} .

$l_R(\theta,\Sigma)=-\frac{n}{2} \log\det\hat\Sigma.$

Naturalmente, neste caso, satisfará todas as propriedades necessárias. As provas são idênticas para o caso em que é linear, o que pode ser encontrado na Análise de séries temporais por JD Hamilton, página 295; portanto, eu as omiti. $\Sigma$ $f$

— mpiktas
fonte

3

Uma alternativa para a parametrização da matriz de covariância é em termos de valores próprios e ângulos "dados" . $\lambda_1,...,\lambda_p$ $p(p-1)/2$ $\theta_ij$

Ou seja, podemos escrever

Σ = G^{T} Λ G

$\Sigma = G^T \Lambda G$

onde é ortonormal e $G$

Λ = d i a g (λ_{1}, . . ., λ_{p})

$\Lambda = diag(\lambda_1, ..., \lambda_p)$

com . $\lambda_1 \geq ... \geq \lambda_p \geq 0$

Enquanto isso, pode ser parametrizado exclusivamente em termos de ângulos, , em que e [1] $G$ $p(p-1)/2$ $\theta_{ij}$ $i = 1,2,...,p-1$ $j = i, ..., p-1$

(detalhes a serem adicionados)

[1]: Hoffman, Raffenetti, Ruedenberg. "Generalização de ângulos de Euler para matrizes ortogonais em dimensões N". J. Math. Phys. 13, 528 (1972)

— charles.y.zheng
fonte

G

$G$

Σ

$\Sigma$

y_{i}

$y_i$ vector and the model function

f (x_{i}, θ)

$f(x_i,\theta)$ so that the errors are independent, then applying OLS to each of the rotated components (I think).

— probabilityislogic

2

Along the lines of charles.y.zheng's solution, you may wish to model $\Sigma = \Lambda + C C^{\top}$ , where $\Lambda$ is a diagonal matrix, and $C$ is a Cholesky factorization of a rank update to $\Lambda$ . You only then need to keep the diagonal of $\Lambda$ positive to keep $\Sigma$ positive definite. That is, you should estimate the diagonal of $\Lambda$ and the elements of $C$ instead of estimating $\Sigma$ .

— shabbychef
fonte

Can below diagonal elements in this settings be anything I want as long as the diagonal is positive? When simulate matrices this way in numpy not all of them are positive definite.

— sztal

Λ

$\Lambda$ is a diagonal matrix.

— shabbychef