A correlação é a padronizada covariância, ou seja, a covariância de e dividida pelo desvio padrão de e . Deixe-me ilustrar isso.xyxy
Em termos gerais, as estatísticas podem ser resumidas como ajustando modelos aos dados e avaliando quão bem o modelo descreve esses pontos de dados ( Resultado = Modelo + Erro ). Uma maneira de fazer isso é calcular as somas de desvios ou resíduos (res) do modelo:
r e s = ∑ ( xEu- x¯)
Muitos cálculos estatísticos são baseados nisso, incl. o coeficiente de correlação (veja abaixo).
Aqui está um exemplo de conjunto de dados criado em R
(os resíduos são indicados como linhas vermelhas e seus valores adicionados ao lado):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
Observando cada ponto de dados individualmente e subtraindo seu valor do modelo (por exemplo, a média; neste caso X=11
e Y=5.4
), pode-se avaliar a precisão de um modelo. Pode-se dizer que o modelo superestimou / subestimou o valor real. No entanto, ao resumir todos os desvios do modelo, o erro total tende a ser zero , os valores se cancelam porque existem valores positivos (o modelo subestima um ponto de dados específico) e valores negativos (o modelo superestima um dado específico ponto). Para resolver esse problema, as somas dos desvios são ao quadrado e agora denominadas somas dos quadrados ( ):SS
SS= ∑ ( xEu- x¯) ( xEu- x¯) = ∑ ( xEu- x¯)2
A soma dos quadrados é uma medida do desvio do modelo (ou seja, a média ou qualquer outra linha ajustada a um determinado conjunto de dados). Não é muito útil para interpretar o desvio do modelo (e compará-lo com outros modelos), pois depende do número de observações. Quanto mais observações, maiores as somas dos quadrados. Isso pode ser resolvido dividindo as somas do quadrado com . A variação da amostra resultante ( ) torna-se o "erro médio" entre a média e as observações e, portanto, é uma medida de quão bem o modelo se encaixa (isto é, representa) os dados:n - 1s2
s2= SSn - 1=∑(xi−x¯)(xi−x¯)n−1=∑(xi−x¯)2n−1
Por conveniência, a raiz quadrada da variação da amostra pode ser obtida, o que é conhecido como desvio padrão da amostra:
s=s2−−√=SSn−1−−−√=∑(xi−x¯)2n−1−−−−−−−√
Agora, a covariância avalia se duas variáveis estão relacionadas entre si. Um valor positivo indica que, conforme uma variável se desvia da média, a outra variável se desvia na mesma direção.
c o vx , y= ∑ ( xEu- x¯) ( yEu- y¯)n - 1
Ao padronizar, expressamos a covariância por desvio padrão da unidade, que é o coeficiente de correlação de Pearson . Isso permite comparar variáveis entre si que foram medidas em unidades diferentes. O coeficiente de correlação é uma medida da força de um relacionamento que varia de -1 (uma correlação negativa perfeita) a 0 (sem correlação) e +1 (uma correlação positiva perfeita).r
r = c o vx , ysxsy= ∑ ( x1- x¯) ( yEu- y¯)( n - 1 ) sxsy
Nesse caso, o coeficiente de correlação de Pearson é , o que pode ser considerado uma correlação forte (embora isso também seja relativo, dependendo do campo de estudo). Para verificar isso, aqui outro gráfico no eixo xe no eixo y:r = 0,87X
Y
Para encurtar a história, sim, seu sentimento está certo, mas espero que minha resposta possa fornecer algum contexto.