Às vezes, podemos "aumentar o conhecimento" com uma abordagem incomum ou diferente. Gostaria que esta resposta fosse acessível aos alunos do jardim de infância e também se divertisse, para que todos saibam seus lápis de cera!
Dados dados emparelhados , desenhe seu gráfico de dispersão. (Os alunos mais novos podem precisar de um professor para produzir isso para eles. :-) Cada par de pontos , nesse gráfico determina um retângulo: é o menor retângulo, cujos lados são paralelos ao eixos, contendo esses pontos. Assim, os pontos estão nos cantos superior direito e inferior esquerdo (uma relação "positiva") ou estão nos cantos superior esquerdo e inferior direito (uma relação "negativa").( x , y)( xEu, yEu)( xj, yj)
Desenhe todos os retângulos possíveis. Pinte-os de forma transparente, deixando os retângulos positivos em vermelho (digamos) e os retângulos negativos em "anti-vermelho" (azul). Dessa forma, onde os retângulos se sobrepõem, suas cores são aprimoradas quando são iguais (azul e azul ou vermelho e vermelho) ou canceladas quando são diferentes.
( Nesta ilustração de um retângulo positivo (vermelho) e negativo (azul), a sobreposição deve ser branca; infelizmente, este software não possui uma cor "anti-vermelha" verdadeira. A sobreposição é cinza, portanto escurece plotagem, mas no geral a quantidade líquida de vermelho está correta. )
Agora estamos prontos para a explicação da covariância.
A covariância é a quantidade líquida de vermelho no gráfico (tratando o azul como valores negativos).
Aqui estão alguns exemplos com 32 pontos binormais extraídos de distribuições com as covariâncias fornecidas, ordenadas da mais negativa (mais azul) para a mais positiva (mais avermelhada).
Eles são desenhados em eixos comuns para torná-los comparáveis. Os retângulos são levemente descritos para ajudá-lo a vê-los. Esta é uma versão atualizada (2019) do original: usa software que cancela corretamente as cores vermelho e ciano em retângulos sobrepostos.
Vamos deduzir algumas propriedades de covariância. O entendimento dessas propriedades estará acessível a qualquer pessoa que tenha desenhado alguns retângulos. :-)
Bilinearidade. Como a quantidade de vermelho depende do tamanho do gráfico, a covariância é diretamente proporcional à escala no eixo x e à escala no eixo y.
Correlação. A covariância aumenta à medida que os pontos se aproximam de uma linha inclinada para cima e diminui à medida que os pontos se aproximam de uma linha inclinada para baixo. Isso ocorre porque no primeiro caso a maioria dos retângulos é positiva e, no último caso, a maioria é negativa.
Relação com associações lineares. Como associações não lineares podem criar misturas de retângulos positivos e negativos, elas levam a covariâncias imprevisíveis (e não muito úteis). Associações lineares podem ser totalmente interpretadas por meio das duas caracterizações anteriores.
Sensibilidade a outliers. Um outlier geométrico (um ponto distante da massa) criará muitos retângulos grandes em associação com todos os outros pontos. Só ele pode criar uma quantidade líquida positiva ou negativa de vermelho na imagem geral.
Aliás, essa definição de covariância difere da usual apenas por uma constante universal de proporcionalidade (independente do tamanho do conjunto de dados). Os inclinados matematicamente não terão problemas para executar a demonstração algébrica de que a fórmula dada aqui é sempre duas vezes a covariância usual.