Pelo que entendi, podemos obter correlação normalizando a covariância usando a equação
onde é o desvio padrão de.
Minha preocupação é: e se o desvio padrão for igual a zero? Existe alguma condição que garanta que não possa ser zero?
Obrigado.
Pelo que entendi, podemos obter correlação normalizando a covariância usando a equação
onde é o desvio padrão de.
Minha preocupação é: e se o desvio padrão for igual a zero? Existe alguma condição que garanta que não possa ser zero?
Obrigado.
Respostas:
É verdade que, se um de seus SDs é 0, essa equação é indefinida. No entanto, uma maneira melhor de pensar sobre isso é que, se um dos seus SDs é 0, não há correlação. Em termos conceituais frouxos, uma correlação mostra como uma variável se move à medida que a outra variável se move. Um SD de 0 implica que a variável não está 'se movendo'. Você precisaria ter um vetor de constante, como rep(constant, n_times)
.
A outra coisa a se pensar são as suposições subjacentes quando falamos de médias e desvios-padrão e correlações.
Se estamos falando de uma amostra de dados, uma suposição comum é que os dados são (pelo menos aproximadamente) normalmente distribuídos ou podem ser transformados de forma que sejam (por exemplo, através de uma transformação de log). Se você observar um desvio padrão de zero, há dois cenários: o desvio padrão é de fato diferente de zero, mas muito pequeno e, portanto, o conjunto de dados que você possui possui amostras com todos os valores médios (isso pode, por exemplo, ocorrer se você estiver medindo dados em um nível aproximado de precisão); ou o modelo está especificado incorretamente.
Nesse segundo cenário, o desvio padrão e, consequentemente, a correlação, é uma medida sem sentido.
De um modo mais geral, as distribuições subjacentes devem ter segundos momentos finitos e, portanto, desvios padrão diferentes de zero, para que a correlação seja um conceito válido.
Uma correlação é o cosseno do ângulo entre dois vetores. Dizer que o desvio padrão para Y é zero é o mesmo que dizer que a média Y do vetor (Y) é zero (ou, mais rigorosamente, que representa zero no espaço vetorial apropriado). Então a pergunta se torna "O que se pode dizer sobre o ângulo (cosseno do) entre o vetor zero e o vetor X-mean (X)?". De maneira mais geral, em qualquer espaço vetorial com um produto interno, o que se entende pelo ângulo entre o vetor zero e algum outro vetor? Há apenas uma resposta para isso, na minha opinião, e é que o conceito de "ângulo" nessa situação não tem sentido, e, portanto, o conceito de correlação nessa situação não tem sentido.
Isenção de responsabilidade, percebo que já existe uma resposta de qualidade aceita, portanto essa deve ser uma resposta, mas não tenho pontos de experiência para permitir isso. @Dilip mencionou que você pode definir a correlação como 0 para a convenção, mas isso parece problemático, pois teria uma interpretação muito diferente de uma correlação que é verdadeiramente zero (com SDs diferentes de zero). A pergunta original diz "se o SD de uma variável é zero". Se pararmos e pensarmos na definição de 'variável', obteremos um caminho muito mais direto para a resposta. Uma variável com 0 SD não é uma variável, é uma constante. Portanto, nesse caso, você não tem duas variáveis; portanto, conceitualmente, não faz sentido definir uma correlação.