Existem três variáveis aleatórias, . As três correlações entre as três variáveis são as mesmas. Isso é,
Qual é o limite mais rígido que você pode dar para ?
Existem três variáveis aleatórias, . As três correlações entre as três variáveis são as mesmas. Isso é,
Qual é o limite mais rígido que você pode dar para ?
Respostas:
A correlação comum pode ter valor + 1 mas não - 1 . Se ρ X , Y = ρ X , Z = - 1 , então ρ Y , Z não pode ser igual a - 1, mas é de fato + 1 . O menor valor da correlação comum de três variáveis aleatórias é - 1 . De maneira mais geral, a correlação mínima comum denvariáveis aleatórias é-1 quando, considerados como vetores, estão nos vértices de um simplex (da dimensãon-1) noespaçon-dimensional.
Considere a variação da soma de variáveis aleatórias de variação unitária X i . Temos essa var ( n ∑ i = 1 X i ) onde ˉ ρ é ovalor médiodoscoeficientes de correlação. Mas como, obtemos facilmente esse
Portanto, o valor médio de um coeficiente de correlação é pelo menos . Se todos os coeficientes de correlação tiverem o mesmo valor , sua média também será igual a e, portanto, temos esse É possível ter variáveis aleatórias para o qual a correlação valor comum é igual a ? Sim. Suponha que os sejam variáveis aleatórias de variação unitária não correlacionadas e defina . Então, , enquanto ρρρ≥-1ρ-1
O limite mais apertado possível é . Todos esses valores podem realmente aparecer - nenhum é impossível.
Para mostrar que não há nada especialmente profundo ou misterioso sobre o resultado, essa resposta apresenta primeiro uma solução completamente elementar, exigindo apenas o fato óbvio de que as variações - sendo os valores esperados dos quadrados - devem ser não-negativas. Isto é seguido por uma solução geral (que usa fatos algébricos um pouco mais sofisticados).
A variação de qualquer combinação linear de deve ser não negativa. Seja a variação dessas variáveis e , respectivamente. Todos são diferentes de zero (caso contrário, algumas das correlações não seriam definidas). Usando as propriedades básicas das variações, podemos calcularυ 2
para todos os números reais .
Supondo , um pouco de manipulação algébrica implica que isso é equivalente a
O termo do quadrado no lado direito é a razão de duas médias de potência de . A desigualdade média da potência elementar (com pesos ) afirma que a razão não pode exceder (e será igual a quando ). Um pouco mais de álgebra implica
O exemplo explícito de abaixo (envolvendo variáveis normais trivariadas ) mostra que todos esses valores, , realmente surgem como correlações. Este exemplo usa apenas a definição de normais multivariados, mas não invoca nenhum resultado de cálculo ou álgebra linear.
Qualquer matriz de correlação é a matriz de covariância das variáveis aleatórias padronizadas, de onde - como todas as matrizes de correlação - deve ser semi-definida positiva. Equivalentemente, seus valores próprios são não negativos. Isso impõe uma condição simples em : não deve ser inferior a (e, é claro, não pode exceder ). Inversamente, qualquer um desses na verdade corresponde à matriz de correlação de alguma distribuição trivariada, provando que esses limites são os mais rígidos possíveis.
Considere o por matriz de correlação com os valores de fora da diagonal igual a(A pergunta diz respeito ao caso mas essa generalização não é mais difícil de analisar.) Vamos chamá-lo de Por definição, é um autovalor desde que exista um vetor diferente de zero , de forma que
Esses valores próprios são fáceis de encontrar no presente caso, porque
Permitindo , calcule isso
Deixando com somente no lugar (para ), calcule isso
Como os autovetores encontrados até o momento abrangem todo o espaço dimensional (prova: uma redução fácil de linha mostra o valor absoluto de seus determinantes iguais a , que é diferente de zero), eles constituem a base de todos os autovetores. Encontramos, portanto, todos os autovalores e determinamos que sejam ou (este último com multiplicidade ). Além da conhecida desigualdade satisfeita por todas as correlações, a não negatividade do primeiro valor próprio implica ainda mais
enquanto a não negatividade do segundo valor próprio não impõe novas condições.
As implicações funcionam em ambas as direções: desde a matriz é definida como não-negativa e, portanto, é uma matriz de correlação válida. É, por exemplo, a matriz de correlação para uma distribuição multinormal. Especificamente, escreva
para o inverso de quando Por exemplo, quando
Deixe o vetor de variáveis aleatórias ter função de distribuição
onde . Por exemplo, quando isso é igual a
A matriz de correlação para essas variáveis aleatórias é
Contornos das funções de densidade Da esquerda para a direita, . Observe como a densidade muda de concentrada perto do plano para concentrada perto da linha .
Os casos especiais e também podem ser realizados por distribuições degeneradas ; Não entrarei em detalhes, exceto para salientar que, no primeiro caso, a distribuição pode ser considerada suportada no hiperplano , onde é uma soma de significados distribuídos de forma idêntica Distribuição normal, enquanto no último caso (correlação positiva perfeita) ela é suportada na linha gerada por , onde tem uma distribuição média- Normal.
Uma revisão dessa análise deixa claro que a matriz de correlação tem uma classificação de e tem uma classificação de (porque apenas um vetor próprio possui um valor próprio diferente de zero). Para , isso torna a matriz de correlação degenerada em ambos os casos. Caso contrário, a existência de seu inverso prova que não é regenerado.
Sua matriz de correlação é
A matriz é positiva semidefinida se os principais menores principais não forem negativos. Os principais menores são os determinantes dos blocos "noroeste" da matriz, ou seja, 1, o determinante de
e o determinante da própria matriz de correlação.
1 é obviamente positivo, o segundo menor principal é , o que não é negativo para qualquer correlação admissível . O determinante de toda a matriz de correlação é
O gráfico mostra o determinante da função no intervalo de correlações admissíveis .
Você vê que a função não é negativa no intervalo fornecido por @stochazesthai (que você também pode verificar encontrando as raízes da equação determinante).
Existem variáveis aleatórias , e com correlações aos pares se e somente se a matriz de correlação for semidefinida positiva. Isso acontece apenas para .Y Z ρ X Y = ρ Y Z = ρ X Z = ρ ρ ∈ [ - 1