O estimador imparcial da matriz de covariância da amostra, dado n pontos de dados xi∈Rd é
C=1n−1∑i=1n(xi−x¯)(xi−x¯)⊤,
onde
x¯=∑xi/né a média de todos os pontos. Vamos denotar
(xi−x¯)como
zi. o
1n−1 fator
n - 1 não altera a classificação e cada termo na soma possui (por definição) a classificação
1 ; portanto, o núcleo da pergunta é o seguinte:
Por que tem posto n - 1 e não posto n , como parece, porque estamos a soma n rank 1 matrizes?∑ziz⊤in−1nn1
A resposta é que isso acontece porque não são independentes. Por construção, Σ z i = 0 . Portanto, se você conhece n - 1 de z i , o último z n restante é completamente determinado; não estamos somando n rank independentes 1 matrizes, estamos somando única n - 1 rank independentes 1 matrizes e, em seguida, adicionando mais um rank 1zi∑zi=0n−1ziznn1n−111 matriz que está completamente linearmente determinado pelo resto. Esta última adição não altera a classificação geral.
Podemos ver esta directamente se reescrever como z n = - n - 1 Σ i = 1 z i , e agora ligá-lo na expressão acima: n Σ i = 1 z i z ⊤ i = n - 1 ∑ i = 1 z i z ⊤ i + ( - n - 1 ∑ i = 1∑zi=0
zn=−∑i=1n−1zi,
∑i=1nziz⊤i=∑i=1n−1ziz⊤i+(−∑i=1n−1zi)z⊤n=∑i=1n−1zi(zi−zn)⊤.
n−1n−1
Este resultado, a propósito, sugere por que o fator no estimador imparcial de covariância é 1n−11n .
n−1x¯ é equivalente de centragem no argumento algébrica acima.