Probabilidade máxima restrita com classificação de coluna menor que a completa de

Esta questão lida com a estimativa de máxima verossimilhança restrita (REML) em uma versão específica do modelo linear, a saber:

Y = X (α) β + ϵ, ϵ \sim N_{n} (0, Σ (α)),

$Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)),$

onde $X(\alpha)$ é uma matriz ( ) parametrizada por , como . é um vetor desconhecido de parâmetros incômodos; o interesse é estimar e temos . Estimar o modelo pela máxima probabilidade não é um problema, mas quero usar o REML. É bem sabido, ver, por exemplo , LaMotte , que a probabilidade , onde é qualquer matriz semi-ortogonal, de modo que possa ser escrita $n \times p$ $\alpha \in \mathbb R^k$ $\Sigma(\alpha)$ $\beta$ $\alpha$ $k\leq p\ll n$ $A'Y$ $A$ $A'X=0$

L_{REML} (α ∣ Y) \propto | X^{'} X |^{1 / 2} | Σ |^{- 1 / 2} | X^{'} Σ^{- 1} X |^{- 1 / 2} \exp {- \frac{1}{2} r^{'} Σ^{- 1} r}, r = (I - X (X^{'} Σ^{- 1} X)^{+} X^{'} Σ^{- 1}) Y,

$L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y,$

quando $X$ é a classificação da coluna completa .

Meu problema é que, para alguns razoavelmente razoáveis e cientificamente interessantes, $\alpha$ matriz $X(\alpha)$ não é da coluna completa. Todas as derivações que eu vi da probabilidade restrita acima fazem uso de igualdades determinantes que não são aplicáveis quando $\vert X'X\vert=0$ , ou seja, eles assumem uma posição de coluna cheia de $X$ . Isso significa que a probabilidade restrita acima é correta apenas para minha configuração em partes do espaço de parâmetros e, portanto, não é o que eu quero otimizar.

Pergunta: Existem probabilidades restritas mais gerais, derivadas, na literatura estatística ou em qualquer outro lugar, sem a suposição de que seja o ranking completo da coluna? Se sim, como eles são? $X$

Algumas observações:

A derivação da parte exponencial não é problema para qualquer e pode ser escrita em termos da inversa de Moore-Penrose, como acima $X(\alpha)$
As colunas de são uma (qualquer) base ortonormal para $A$ $C(X)^\bot$
Para conhecido , a probabilidade de pode ser facilmente anotada para cada , mas é claro que o número de vetores de base, isto é, colunas, em depende da classificação da coluna de $A$ $A'Y$ $\alpha$ $A$ $X$

Se qualquer pessoa interessada nesta questão acredita que a parametrização exata de iria ajudar, deixe-me saber e eu vou escrevê-las. Neste ponto, porém, estou mais interessado em uma REML para um geral das dimensões corretas. $X,\Sigma$ $X$

Uma descrição mais detalhada do modelo segue aqui. Seja seja uma regressão automática vetorial de primeira ordem dimensional [VAR (1)] onde . Suponha que o processo seja iniciado em algum valor fixo no tempo . $y_t = \mu + Ay_{t - 1} + v_t, t = 1, \dots, T$ $r$ $v_t \overset{iid}{\sim}N(0, \Omega)$ $y_0$ $t = 0$

Defina . O modelo pode ser escrito no formato de modelo linear usando as seguintes definições e notação: $Y = [y_1', \dots, y_T']'$ $Y = X\beta + \varepsilon$

\begin{aligned} X & = [1_{T} \otimes {Eu}_{r}, C^{- 1} B] \\ β & = [μ^{'}, y_{0 0}^{'} - μ^{'}]^{'} \\ v uma r (ε)^{- 1} & = C^{'} ({Eu}_{T} \otimes Ω^{- 1}) C \\ C & = [\begin{matrix} {Eu}_{r} & 0 0 & 0 0 & \dots \\ - UMA & {Eu}_{r} & 0 0 & \dots \\ 0 0 & - UMA & {Eu}_{r} & \dots \\ ⋮ & ⋮ & ⋮ & ⋱ \end{matrix}] \\ B & = e_{1, T} \otimes UMA, \end{aligned}

$\begin{align} X &= [1_T \otimes I_r, C^{-1}B] \\ \beta &= [\mu', y_0' - \mu']' \\ \mathrm{var}(\varepsilon)^{-1} &= C'(I_T \otimes \Omega^{-1})C \\ C &= \begin{bmatrix} I_r & 0 & 0 & \cdots \\ -A & I_r & 0 & \cdots \\ 0 & -A & I_r & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{bmatrix} \\ B &= e_{1, T} \otimes A, \end{align}$

onde indica um vetor dimensional de uns e o primeiro vector base padrão de . $1_T$ $T-$ $e_{1,T}$ $\mathbb R^T$

Denota . Observe que, se não estiver na classificação completa, não será na coluna completa. Isso inclui, por exemplo, casos em que um dos componentes de não depende do passado. $\alpha = \mathrm{vec}(A)$ $A$ $X(\alpha)$ $y_t$

A idéia de estimar VARs usando REML é bem conhecida, por exemplo, na literatura de regressões preditivas (veja, por exemplo, Phillips e Chen e as referências nela).

Pode valer a pena esclarecer que a matriz não é uma matriz de design no sentido usual, apenas cai fora do modelo e, a menos que exista um conhecimento prévio sobre não há, até onde posso dizer, nenhuma maneira de reparameterizar para ser classificação completa. $X$ $A$

Publiquei uma pergunta em math.stackexchange que está relacionada a essa no sentido de que uma resposta para a pergunta de matemática pode ajudar a derivar uma probabilidade de resposta a essa pergunta.

— ekvall
fonte

Talvez uma maneira de abordar a questão seja perguntar: o que acontece nos modelos lineares mistos quando a matriz do modelo não está na classificação completa da coluna?

— Greenparker

Obrigado pela recompensa @Greenparker. E, sim, se uma probabilidade restrita pudesse ser anotada para um modelo misto linear, com menos do que a matriz de design de efeitos fixos na classificação da coluna completa, isso ajudaria.

— Ekvall

A derivação da parte exponencial não é problema para qualquer X (α) X (α) e pode ser escrita em termos da inversa de Moore-Penrose, como acima

Duvido que esta observação esteja correta. O inverso generalizado na verdade impõe restrições lineares adicionais aos seus estimadores [Rao & Mitra]; portanto, devemos considerar a probabilidade conjunta como um todo, em vez de adivinhar que "o inverso de Moore-Penrose funcionará para a parte exponencial". Isso parece formalmente correto, mas você provavelmente não entende o modelo misto corretamente.

(1) Como pensar modelos de efeitos mistos corretamente? $\blacksquare$

Você precisa pensar no modelo de efeito misto de uma maneira diferente antes de tentar conectar o inverso-g (OR Moore-Penrose inverso, que é um tipo especial de inverso-g reflexivo [Rao & Mitra]) mecanicamente na fórmula dada por RMLE (Restricted Estimador de máxima verossimilhança, o mesmo abaixo.).

X = (\begin{array}{cc} f Eu x e d e f f e c t \\ r uma n d o m e f f e c t \end{array})

$\boldsymbol{X}=\left(\begin{array}{cc} fixed\quad effect\\ & random\quad effect \end{array}\right)$

Uma maneira comum de pensar em efeito misto é que a parte do efeito aleatório na matriz de projeto é introduzida por erro de medição, que leva outro nome de "preditor estocástico" se nos preocupamos mais com predição do que com estimativa. Essa é também uma motivação histórica do estudo da matriz estocástica no estabelecimento de estatísticas.

Meu problema é que, para alguns perfeitamente razoáveis e cientificamente interessantes, αα a matriz X (α) X (α) não é da classificação completa da coluna.

Dada essa maneira de pensar a probabilidade, a probabilidade de que não seja de classificação completa é zero. Isso ocorre porque a função determinante é contínua nas entradas da matriz e a distribuição normal é uma distribuição contínua que atribui probabilidade zero a um único ponto. A probabilidade da classificação defeituosa é positiva se você a tiver parametrizado de maneira patológica como $X(\alpha)$ $X(\alpha)$ . $\left(\begin{array}{ccc} \alpha & \alpha\\ \alpha & \alpha\\ & & random\quad effect \end{array}\right)$

Portanto, a solução para sua pergunta é também bastante para a frente, você simplesmente perturb seu projeto matriz (perturbar a parte efeito fixo apenas), e usar a matriz perturbada (que é a classificação completa) para realizar todas as derivações. A menos que seu modelo tenha hierarquias complicadas ou seja quase singular, não vejo um problema sério quando você no resultado final, pois a função determinante é contínua e podemos assumir o limite dentro da função determinante. $X_\epsilon(\alpha)=X(\alpha)+\epsilon\left(\begin{array}{cc} I & 0\\ 0 & 0 \end{array}\right)$ $X$ $\epsilon\rightarrow 0$ . E, na forma de perturbação, o inverso de pode ser obtido pelo Teorema de Sherman-Morrision-Woodbury. E o determinante da matriz é dado em um livro de álgebra linear padrão como [Horn & Johnson]. É claro que podemos escrever o determinante em termos de cada entrada da matriz, mas a perturbação é sempre preferida [Horn & Johnson]. $lim_{\epsilon\rightarrow 0}|X_\epsilon|=|lim_{\epsilon\rightarrow 0}X_\epsilon|$ $X_\epsilon$ $I+X$

(2) Como devemos lidar com parâmetros de perturbação em um modelo? $\blacksquare$

Como você vê, para lidar com a parte do efeito aleatório no modelo, devemos considerá-la como uma espécie de "parâmetro incômodo". O problema é: o RMLE é a maneira mais apropriada de eliminar um parâmetro incômodo? Mesmo nos modelos GLM e de efeito misto, o RMLE está longe de ser a única opção. [Basu] apontou que muitas outras maneiras de eliminar parâmetros na definição de estimativas. Hoje, as pessoas tendem a escolher entre modelagem RMLE e Bayesiana, porque correspondem a duas soluções populares baseadas em computador: EM e MCMC, respectivamente.

Na minha opinião, é definitivamente mais adequado introduzir um prior na situação de classificação defeituosa na parte de efeito fixo. Ou você pode reparameterizar seu modelo para transformá-lo em um ranking completo.

Além disso, caso seu efeito fixo não seja de classificação completa, você pode se preocupar acima da estrutura de covariância mal especificada, porque os graus de liberdade em efeitos fixos devem ter entrado na parte do erro. Para ver este ponto mais claramente, você pode querer considerar o MLE (também LSE) para os GLS (General menos onde é a estrutura de covariância de o termo de erro, para o caso em que não está na classificação completa. $\hat{\beta}=(X\Sigma^{-1} X')^{-1}\Sigma^{-1}y$ $\Sigma$ $X(\alpha)$

(3) Outros comentários $\blacksquare$

O problema não é como você modifica o RMLE para fazê-lo funcionar no caso em que parte de efeito fixo da matriz não é de classificação completa; o problema é que, nesse caso, seu próprio modelo pode ser problemático se um caso não de classificação completa tiver probabilidade positiva.

Um caso relevante que encontrei é que, no caso espacial, as pessoas podem querer reduzir a classificação da parte de efeito fixo devido à consideração computacional [Wikle].

Não vi nenhum caso "cientificamente interessante" em tal situação. Você pode apontar alguma literatura em que o caso não-hierárquico é de grande preocupação? Gostaria de saber e discutir mais, obrigado.

$\blacksquare$

[Rao & Mitra] Rao, Calyampudi Radhakrishna e Sujit Kumar Mitra. Inverso generalizado de matrizes e suas aplicações. Vol. 7. New York: Wiley, 1971.

[Basu] Basu, Debabrata. "Sobre a eliminação de parâmetros incômodos." Jornal da Associação Estatística Americana 72.358 (1977): 355-366.

[Horn & Johnson] Horn, Roger A. e Charles R. Johnson. Análise matricial. Cambridge University Press, 2012.

[Wikle] Wikle, Christopher K. "Representações de baixo escalão para processos espaciais". Handbook of Spatial Statistics (2010): 107-118.

— Henry.L
fonte

X

$X$

α

$\alpha$

@ Student001 Sim, sinta-se à vontade para fazer qualquer esclarecimento, já que também me sinto mais como um GLM do que como modelo misto. Vou tentar responder novamente se eu pode :)

— Henry.L

@ Student001 Se puder, escreva o modelo inteiro e eu gostaria de estudar esse caso, possivelmente AR (1) em um cenário espacial, eu acho.

— Henry.L

X (α)

$X(\alpha)$

@ MarkL.Stone Eu já forneci a perturbação como uma solução se você ler as linhas cuidadosamente, que é uma solução padrão para a singularidade numérica. E o OP disse que ele atualizará a descrição, então acho que chegaremos a alguns consesus sobre o problema formulado corretamente.

— Henry.L