Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis?


30

Digamos que eu tenha uma distribuição Gaussiana multivariada em dimensional. E tomo observações (cada uma delas um vetor ) dessa distribuição e calculo a matriz de covariância da amostra . Neste artigo , os autores afirmam que a matriz de covariância da amostra calculada com é singular.pnpSp>n

  • Como é verdade ou derivada?
  • Alguma explicação?

4
Observe que isso é verdade independentemente da distribuição subjacente: não precisa ser gaussiano.
Ameba diz Reinstate Monica

Respostas:


22

Alguns fatos sobre as classificações matriciais, oferecidos sem provas (mas as provas de todas ou quase todas devem ser fornecidas em textos de álgebra linear padrão ou, em alguns casos, configurados como exercícios depois de fornecer informações suficientes para poder fazê-lo):

Se e B são duas matrizes conformáveis, então:AB

(i) classificação da coluna de = classificação da linha de AAA

(ii) rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii) rank(AB)min(rank(A),rank(B))

(iv) rank(A+B)rank(A)+rank(B)

(v) se é uma matriz quadrada de posição completa, então posição ( A B ) = posição ( A )Brank(AB)=rank(A)

Considere a matriz dos dados da amostra, y . Pelo exposto, a classificação de y é no máximo min ( n , p ) .n×pyymin(n,p)

Além disso, do exposto claramente a classificação de não será maior que a classificação de y (considerando o cálculo de S na forma de matriz, talvez com alguma simplificação).SyS

Se , classifique ( y ) < p; nesse caso, classifique ( S ) < p .n<prank(y)<prank(S)<p


boa resposta! Não está totalmente claro, no entanto, como y e S se relacionam com A e B?
Matifou 27/10

S é calculado a partir de y; ("x" na postagem original). Você pode usar os fatos sobre ye as manipulações feitas nele (através das regras acima) para obter um limite na classificação S. Os papéis desempenhados por A e B mudam de um passo para o outro.
Glen_b -Reinstate Monica

14

A resposta curta para sua pergunta é a classificação . Então, se p > n , então S é singular.(S)n1p>nS

Para uma resposta mais detalhada, lembre-se de que a matriz de covariância de amostra (imparcial) pode ser escrita como

S=1n1i=1n(xix¯)(xix¯)T.

Efectivamente, nós estamos soma matrizes, cada um tendo uma classificação de 1. Assumindo que as observações são linearmente independentes, em certo sentido, cada observação x i contribui para um posto ( S ) , e um 1 é subtraído do valor (se p > n ) porque centralizamos cada observação por ˉ x . No entanto, se a multicolinearidade estiver presente nas observações, a classificação ( S ) poderá ser reduzida, o que explica por que a classificação pode ser menor que n - 1 .nxi(S)p>nx¯(S)n1

Uma grande quantidade de trabalho foi dedicada ao estudo desse problema. Por exemplo, um colega meu e eu escrevemos um artigo sobre esse mesmo tópico, onde estávamos interessados ​​em determinar como proceder se é singular quando aplicado à análise discriminante linear na configuração p n .Spn


4
Você poderia explicar por que subtrair 1 porque centralizamos cada observação por x¯ ?
abacate


Boa resposta! Talvez você possa apenas adicionar uma explicação / link para o fato de a declaração que estamos somando 𝑛 matrizes, cada uma com uma classificação de 1 ? Obrigado!
Matifou 27/10

10

Quando você olha para a situação da maneira certa, a conclusão é intuitivamente óbvia e imediata.

Este post oferece duas demonstrações. O primeiro, imediatamente abaixo, está em palavras. É equivalente a um desenho simples, aparecendo no final. No meio está uma explicação do significado das palavras e do desenho.


A matriz de covariância para p observações -variate é um p × p matriz calculado por deixou-multiplicação de uma matriz X n p (os dados centrado de novo) pela sua transposta X ' p n . Este produto de matrizes envia vetores através de um pipeline de espaços vetoriais em que as dimensões são p e n . Por conseguinte, a matriz de covariâncias, qua transformação linear, vai enviar R n em um subespaço cuja dimensão é, no máximo, min ( p , n ) .n pp×pXnpXpnpnRnmin(p,n)É imediato que a classificação da matriz de covariância não seja maior que . min(p,n) Consequentemente, se então a classificação é no máximo n , o que - sendo estritamente menor que p - significa que a matriz de covariância é singular.p>nnp

Toda essa terminologia é totalmente explicada no restante deste post.

(Como Amoeba gentilmente apontou em um comentário agora excluído e mostra em resposta a uma pergunta relacionada , a imagem de na verdade está em um subespaço de codimensão um de R n (consistindo em vetores cujos componentes somam zero) porque todas as colunas foram marcadas com zero e, portanto, a classificação da matriz de covariância da amostra 1XRnnão pode excedern-1.)1n1XXn1


Álgebra linear é tudo sobre o rastreamento de dimensões de espaços vetoriais. Você só precisa apreciar alguns conceitos fundamentais para ter uma intuição profunda de afirmações sobre classificação e singularidade:

  1. A multiplicação de matrizes representa transformações lineares de vetores. Uma matriz M representa uma transformação linear de um espaço n- dimensional V n para um espaço m- dimensional V m . Especificamente, ele envia qualquer x V n para M x = y V m . Que esta é uma transformação linear segue imediatamente a definição de transformação linear e as propriedades aritméticas básicas da multiplicação de matrizes.m×nMnVnmVmxVnMx=yVm

  2. Transformações lineares nunca podem aumentar dimensões. Isto significa que a imagem de todo o espaço vectorial sob a transformação M (que é um espaço sub-vector de V m ) pode ter uma dimensão não superior a n . Este é um teorema (fácil) que se segue da definição de dimensão.VnMVmn

  3. A dimensão de qualquer espaço de subvetor não pode exceder a do espaço em que se encontra. Este é um teorema, mas, novamente, é óbvio e fácil de provar.

  4. A classificação de uma transformação linear é a dimensão de sua imagem. A classificação de uma matriz é a classificação da transformação linear que ela representa. Estas são definições.

  5. Um singular matriz tem posto estritamente inferior a nMmnn (a dimensão do seu domínio). Em outras palavras, sua imagem possui uma dimensão menor. Esta é uma definição.

Para desenvolver a intuição, ajuda a ver as dimensões. Escreverei, portanto, as dimensões de todos os vetores e matrizes imediatamente após eles, como em e x n . Assim, a fórmula genéricaMmnxn

ym=Mmnxn

pretende significar que a matriz M , quando aplicada ao vetor n - x , produz um vetor m - y .m×nMnxmy

Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, suppose ya is an a-dimensional vector resulting from the successive applications of the linear transformations Mmn,Llm,,Bbc, and Aab to the n-vector xn coming from the space Vn. This takes the vector xn successively through a set of vector spaces of dimensions m,l,,c,b, and finally a.

Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of Vn cannot exceed the smallest dimension min(a,b,c,,l,m,n) encountered in the pipeline.


This diagram of the pipeline, then, fully proves the result when it is applied to the product XX:

![enter image description here

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.