Qual é a relação entre e no gráfico a seguir? Na minha opinião, existe um relacionamento linear negativo, mas, como temos muitos discrepantes, o relacionamento é muito fraco. Estou certo? Quero aprender como podemos explicar gráficos de dispersão.
Qual é a relação entre e no gráfico a seguir? Na minha opinião, existe um relacionamento linear negativo, mas, como temos muitos discrepantes, o relacionamento é muito fraco. Estou certo? Quero aprender como podemos explicar gráficos de dispersão.
Respostas:
A pergunta lida com vários conceitos: como avaliar dados fornecidos apenas na forma de um gráfico de dispersão, como resumir um gráfico de dispersão e se (e em que grau) um relacionamento parece linear. Vamos levá-los em ordem.
Use princípios de análise exploratória de dados (EDA). Estes (pelo menos originalmente, quando foram desenvolvidos para uso com lápis e papel) enfatizam resumos de dados simples, fáceis de calcular e robustos. Um dos tipos mais simples de resumos é baseado em posições dentro de um conjunto de números, como o valor do meio, que descreve um valor "típico". É fácil estimar Middles com precisão a partir de gráficos.
Os gráficos de dispersão exibem pares de números. O primeiro de cada par (conforme plotado no eixo horizontal) fornece um conjunto de números únicos, que poderíamos resumir separadamente.
Nesse gráfico de dispersão específico, os valores-y parecem estar em dois grupos quase completamente separados : os valores acima de na parte superior e aqueles iguais ou inferiores a 60 na parte inferior. (Essa impressão é confirmada através do desenho de um histograma dos valores y, que é nitidamente bimodal, mas seria muito trabalhoso nesta fase.) Convido os céticos a olhar de soslaio para o gráfico de dispersão. Quando o faço - usando um borrão gaussiano de raio grande e corrigido por gama (ou seja, um resultado padrão de processamento rápido de imagem) dos pontos no gráfico de dispersão, vejo o seguinte:
Os dois grupos - superior e inferior - são bastante aparentes. (O grupo superior é muito mais claro que o inferior porque contém muito menos pontos.)
Portanto, vamos resumir os grupos de valores y separadamente. Farei isso desenhando linhas horizontais nas medianas dos dois grupos. Para enfatizar a impressão dos dados e mostrar que não estamos fazendo nenhum tipo de cálculo, eu (a) removi todas as decorações como eixos e linhas de grade e (b) desfoquei os pontos. Pouca informação sobre os padrões nos dados é perdida, "apertando os olhos" no gráfico:
Da mesma forma, tentei marcar as medianas dos valores x com segmentos de linha verticais. No grupo superior (linhas vermelhas), você pode verificar - contando os blobs - se essas linhas realmente separam o grupo em duas metades iguais, horizontal e verticalmente. No grupo inferior (linhas azuis), apenas estimei visualmente as posições sem realmente contar.
Os pontos de interseção são os centros dos dois grupos. Um excelente resumo da relação entre os valores x e y seria relatar essas posições centrais. Alguém poderia então complementar este resumo com uma descrição de quanto os dados estão espalhados em cada grupo - à esquerda e à direita, acima e abaixo - ao redor de seus centros. Por questões de brevidade, não farei isso aqui, mas observe que (aproximadamente) os comprimentos dos segmentos de linha que desenhei refletem os spreads gerais de cada grupo.
Por fim, desenhei uma linha (tracejada) conectando os dois centros. Esta é uma linha de regressão razoável. É uma boa descrição dos dados? Certamente que não: veja como os dados estão espalhados nessa linha. É mesmo evidência de linearidade? Isso é pouco relevante porque a descrição linear é muito ruim. No entanto, porque essa é a questão diante de nós, vamos abordar isso.
A relação é linear no sentido estatístico quando ambos os valores de y variam de um modo aleatório equilibrado em torno de uma linha ou os valores de x são vistas para variar de um modo aleatório equilibrado em torno de uma linha (ou ambos).
O primeiro não parece ser o caso aqui: como os valores de y parecem se dividir em dois grupos, sua variação nunca parecerá equilibrada no sentido de serem distribuídos simetricamente acima ou abaixo da linha. (Isso exclui imediatamente a possibilidade de despejar os dados em um pacote de regressão linear e executar um ajuste de mínimos quadrados de y contra x: as respostas não seriam relevantes.)
E a variação em x? Isso é mais plausível: a cada altura do gráfico, a dispersão horizontal de pontos ao redor da linha pontilhada é bastante equilibrada. A dispersão nessa dispersão parece ser um pouco maior em alturas mais baixas (valores baixos de y), mas talvez seja porque há muito mais pontos lá. (Quanto mais dados aleatórios você tiver, mais distanciados serão os valores extremos.)
Além disso, à medida que examinamos de cima para baixo, não há lugares onde a dispersão horizontal ao redor da linha de regressão seja fortemente desequilibrada: isso seria evidência de não linearidade. (Bem, talvez em torno de y = 50 ou mais, possa haver muitos valores grandes de x. Esse efeito sutil pode ser tomado como evidência adicional para dividir os dados em dois grupos em torno do valor de y = 60.)
Vimos isso
Faz sentido visualizar x como uma função linear de y mais alguma variação aleatória "agradável".
Ela não faz sentido vista y como uma função linear de x mais variação aleatória.
Uma linha de regressão pode ser estimada separando os dados em um grupo de altos valores de y e um grupo de baixos valores de y, localizando os centros de ambos os grupos usando medianas e conectando esses centros.
A linha resultante tem uma inclinação descendente, indicando uma relação linear negativa .
Não há fortes desvios da linearidade.
No entanto, como os spreads dos valores x ao redor da linha ainda são grandes (em comparação com o spread geral dos valores x, para começar), teríamos que caracterizar essa relação linear negativa como "muito fraca".
Pode ser mais útil descrever os dados como formando duas nuvens em forma oval (uma para y acima de 60 e outra para valores mais baixos de y). Dentro de cada nuvem, há pouca relação detectável entre x e y. Os centros das nuvens estão próximos (0,29, 90) e (0,38, 30). As nuvens têm spreads comparáveis, mas a nuvem superior tem muito menos dados que a mais baixa (talvez 20% a mais).
Duas dessas conclusões confirmam as feitas na própria pergunta de que existe um relacionamento negativo fraco. Os outros complementam e apóiam essas conclusões.
Uma conclusão tirada na pergunta que parece não se sustentar é a afirmação de que existem "discrepâncias". Um exame mais cuidadoso (como esboçado abaixo) não apresentará pontos individuais, nem mesmo pequenos grupos de pontos que validamente possam ser considerados distantes. Após uma análise suficientemente longa, pode-se chamar a atenção para os dois pontos próximos ao meio direito ou o ponto inferior esquerdo, mas mesmo estes não mudarão muito a avaliação dos dados, sejam eles considerados ou não periférico.
Muito mais poderia ser dito. Os próximos passos seriam avaliar os spreads dessas nuvens. Os relacionamentos entre x e y em cada uma das duas nuvens podem ser avaliados separadamente, usando as mesmas técnicas mostradas aqui. A leve assimetria da nuvem mais baixa (mais dados parecem aparecer nos menores valores de y) pode ser avaliada e até ajustada reexpressando os valores de y (uma raiz quadrada pode funcionar bem). Nesse estágio, faria sentido procurar dados externos, porque nesse momento a descrição incluiria informações sobre valores de dados típicos e seus spreads; os outliers (por definição) estariam muito longe do meio para serem explicados em termos da quantidade observada de propagação.
Nada desse trabalho - que é bastante quantitativo - exige muito mais do que encontrar um meio de grupos de dados e fazer alguns cálculos simples com eles, e, portanto, pode ser feito com rapidez e precisão, mesmo quando os dados estão disponíveis apenas na forma gráfica. Todos os resultados aqui relatados - incluindo os valores quantitativos - podem ser facilmente encontrados em poucos segundos, usando um sistema de exibição (como cópia impressa e lápis :-)) que permite fazer marcas de luz no topo do gráfico.
Vamos nos divertir!
Antes de tudo, raspei os dados do seu gráfico.
Em seguida, usei uma linha de execução mais suave para produzir a linha de regressão preta abaixo, com as faixas tracejadas de IC de 95% em cinza. O gráfico abaixo mostra um intervalo na metade de dados suave, embora períodos mais apertados tenham revelado mais ou menos precisamente a mesma relação. A ligeira mudança na inclinação em torno de sugeriu uma relação que poderia ser aproximada usando um modelo linear e adicionando uma função de dobradiça linear da inclinação de X em uma regressão não linear de mínimos quadrados (linha vermelha):
As estimativas do coeficiente foram:
Eu observaria que, embora o whuber redobrável afirme que não há relações lineares fortes, o desvio da linha implícito no termo de dobradiça está na mesma ordem que a inclinação de X (isto é, 37,7), então eu discordaria respeitosamente que não vemos um relacionamento não-linear forte (ou seja, Sim, não há relacionamentos fortes, mas o termo não-linear é tão forte quanto o linear).
(A linha vermelha é simplesmente uma regressão linear de ln (Y) em X.)
Aqui está o meu 2 ¢ 1,5 ¢. Para mim, a característica mais importante é que os dados param abruptamente e se agrupam na parte inferior do intervalo de Y. Eu vejo os dois (potenciais) 'clusters' e a associação negativa geral, mas as características mais salientes são as (potencial) efeito de piso e o fato de que o cluster superior de baixa densidade se estende apenas por parte da faixa de X.
Como os 'aglomerados' são vagamente bivariados normais, um modelo paramétrico de mistura normal pode ser interessante para tentar. Usando os dados do @Alexis, acho que três clusters otimizam o BIC. O 'efeito de piso' de alta densidade é escolhido como um terceiro cluster. O código a seguir:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
Agora, o que devemos deduzir disso? Eu não acho que isso Mclust
seja apenas o reconhecimento de padrões humanos que deu errado. (Embora minha leitura do gráfico de dispersão possa muito bem ser.) Por outro lado, não há dúvida de que isso é post-hoc . Vi o que pensei ser um padrão interessante e decidi verificá-lo. O algoritmo encontra algo, mas só verifiquei o que achava que poderia estar lá, então meu polegar está definitivamente na escala. Às vezes, é possível elaborar uma estratégia para mitigar isso (consulte a excelente resposta do @ whuber aqui ), mas não tenho idéia de como executar esse processo em casos como esse. Como resultado, eu tomo esses resultados com muito sal (eu já fazia esse tipo de coisa com frequência suficiente para que alguém estivesse sentindo falta de um shaker inteiro) Isso me fornece algum material para pensar e discutir com meu cliente quando nos encontrarmos. Quais são esses dados? Faz algum sentido que possa haver um efeito de piso? Faria sentido que houvesse grupos diferentes? Quão significativo / surpreendente / interessante / importante seria se fossem reais? Existem dados independentes / poderíamos levá-los a realizar convenientemente um teste honesto dessas possibilidades? Etc.
Deixe-me descrever o que vejo assim que olho para ele:
é quase plana. (Veja as linhas vermelhas e azuis abaixo, desenhadas aproximadamente onde acho que deve haver uma sensação aproximada de localização)
, podemos continuar dizendo mais:
caia e, abaixo de 0,2, o grupo inferior é muito menos denso que acima dele, aumentando a média geral mais alta.
mas com uma região ampla e quase plana no centro. (Veja linha tracejada roxa)
).
Foi o que vi baseado em uma inspeção puramente "ocular". Com um pouco de brincadeira em algo como um programa básico de manipulação de imagens (como o que eu desenhei as linhas), poderíamos começar a descobrir alguns números mais precisos. Se digitalizarmos os dados (o que é bastante simples com ferramentas decentes, às vezes um pouco entediantes para acertar), podemos realizar análises mais sofisticadas desse tipo de impressão.
Esse tipo de análise exploratória pode levar a algumas questões importantes (às vezes, que surpreendem a pessoa que possui os dados, mas que apenas mostrou um gráfico), mas devemos tomar cuidado com o grau em que nossos modelos são escolhidos por essas inspeções - se Se aplicamos modelos escolhidos com base na aparência de um gráfico e, em seguida, estimamos esses modelos nos mesmos dados, tenderemos a encontrar os mesmos problemas que encontramos quando usamos uma seleção e estimativa de modelos mais formais nos mesmos dados. [Isso não é para negar a importância da análise exploratória - é só que devemos ter cuidado com as consequências de fazê-lo sem levar em consideração modo como o fazemos. ]
Resposta aos comentários de Russ:
[editar mais tarde: para esclarecer - eu concordo amplamente com as críticas de Russ tomadas como precaução geral, e certamente há alguma possibilidade que eu já vi mais do que realmente existe. Pretendo voltar e editá-los em um comentário mais extenso sobre padrões espúrios que comumente identificamos a olho nu e maneiras pelas quais podemos começar a evitar o pior disso. Acredito que também poderei acrescentar algumas justificativas sobre o motivo pelo qual acho que não é apenas falso neste caso específico (por exemplo, através de um regressograma ou um kernel de ordem 0, embora, é claro, não haja mais dados para testar, apenas até onde isso pode ir; por exemplo, se nossa amostra não é representativa, mesmo a reamostragem só nos leva tão longe.]
Concordo plenamente que temos uma tendência a ver padrões espúrios; é um argumento que faço frequentemente aqui e em outros lugares.
Uma coisa que sugiro, por exemplo, ao analisar gráficos residuais ou gráficos de QQ é gerar muitos gráficos em que a situação é conhecida (tanto como as coisas devem ser como onde as suposições não se aplicam) para ter uma idéia clara de quanto padrão deve ser ignorado.
Aqui está um exemplo em que um gráfico de QQ é colocado entre outros 24 (que satisfazem as suposições), para que possamos ver o quão incomum o gráfico é. Esse tipo de exercício é importante porque ajuda a evitar enganar a nós mesmos, interpretando cada pequeno movimento, a maioria dos quais será um ruído simples.
Costumo salientar que, se você pode alterar uma impressão cobrindo alguns pontos, podemos estar contando com uma impressão gerada por nada mais que ruído.
[No entanto, quando é aparente em muitos pontos e não em poucos, é mais difícil sustentar que não está lá.]
.
Quando não temos mais dados para verificar, podemos pelo menos verificar se a impressão tende a sobreviver à reamostragem (inicialize a distribuição bivariada e veja se ela quase sempre está presente) ou outras manipulações nas quais a impressão não deve ser aparente se é barulho simples.
1) Aqui está uma maneira de ver se a bimodalidade aparente é mais do que apenas distorção e ruído - ela aparece em uma estimativa de densidade do kernel? Ainda é visível se traçarmos estimativas de densidade de kernel sob uma variedade de transformações? Aqui, eu o transformo para uma maior simetria, com 85% da largura de banda padrão (já que estamos tentando identificar um modo relativamente pequeno e a largura de banda padrão não é otimizada para essa tarefa):
. A bimodalidade é diminuída, mas ainda bem visível. Como está muito claro no KDE original, parece confirmar que está lá - e o segundo e o terceiro gráficos sugerem que é pelo menos um pouco robusto à transformação.
2) Aqui está outra maneira básica de ver se é mais do que apenas "ruído":
Etapa 1: executar o clustering em Y
Os pontos com pontos foram agrupados de maneira diferente do agrupamento "tudo em um conjunto" no gráfico anterior. Farei um pouco mais tarde, mas parece que talvez haja realmente uma "divisão" horizontal perto dessa posição.
). Ainda não gerei, mas vamos ver como eles vão. Eu provavelmente excluiria os extremos onde há poucos dados.
3) Editar: Aqui está o regressograma, para compartimentos de largura 0,1 (excluindo as extremidades, como sugeri anteriormente):
Isso é totalmente consistente com a impressão original que tive da trama; isso não prova que meu raciocínio estava correto, mas minhas conclusões chegaram ao mesmo resultado que o regressograma.
(A próxima coisa a tentar seria um estimador de Nadayara-Watson. Então, eu posso ver como isso ocorre na reamostragem, se eu tiver tempo.)
4) Edição posterior:
Nadarya-Watson, kernel gaussiano, largura de banda 0,15:
Novamente, isso é surpreendentemente consistente com a minha impressão inicial. Aqui estão os estimadores do NW com base em dez reamostragens de bootstrap:
O padrão geral está lá, embora algumas reamostragens não sigam tão claramente a descrição com base em todos os dados. Vimos que o caso do nível da esquerda é menos certo do que do direito - o nível de ruído (em parte de poucas observações, em parte da ampla distribuição) é tal que é menos fácil afirmar que a média é realmente mais alta esquerda do que no centro.
Minha impressão geral é que provavelmente não estava me enganando, porque os vários aspectos enfrentam moderadamente bem uma variedade de desafios (suavização, transformação, divisão em subgrupos, reamostragem) que tenderiam a obscurecê-los se fossem simplesmente ruído. Por outro lado, as indicações são de que os efeitos, embora amplamente consistentes com a minha impressão inicial, são relativamente fracos, e pode ser demais reivindicar qualquer mudança real na expectativa, movendo-se do lado esquerdo para o centro.
E as correlações:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
O teste de correlação indica uma provável dependência negativa. Continuo não convencido de qualquer bimodalidade (mas também não convencido de que está ausente).
[Eu removi uma plotagem residual que possuía em uma versão anterior porque negligenciei o ponto que @whuber estava tentando prever .]
Russ Lenth se perguntou como seria o gráfico se o eixo Y fosse logarítmico. Alexis raspou os dados, por isso é fácil traçar com um eixo de log:
Em uma escala logarítmica, não há indícios de bimodalidade ou tendência. Se uma escala de log faz sentido ou não depende, é claro, dos detalhes do que os dados representam. Da mesma forma, se faz sentido pensar que os dados representam amostras de duas populações, como sugere o whuber, depende dos detalhes.
Adendo: Com base nos comentários abaixo, aqui está uma versão revisada:
Bem, você está certo, o relacionamento é fraco, mas não zero. Eu acho que positivo. No entanto, não adivinhe, basta executar uma regressão linear simples (regressão OLS) e descobrir! Lá você terá uma inclinação de xxx que indica qual é o relacionamento. E sim, você tem discrepâncias que podem influenciar os resultados. Isso pode ser tratado. Você pode usar a distância de Cook ou criar um gráfico de alavancagem para estimar o efeito dos discrepantes no relacionamento.
Boa sorte
Você já forneceu alguma intuição à sua pergunta, observando a orientação dos pontos de dados X / Y e sua dispersão. Em resumo, você está correto.
Em termos formais, a orientação pode ser referida como sinal de correlação e dispersão como variância . Esses dois links fornecerão mais informações sobre como interpretar orelacionamento linear entre duas variáveis.
Este é um trabalho em casa. Portanto, a resposta para sua pergunta é simples. Execute uma regressão linear de Y em X, você obterá algo como isto:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
Portanto, a estatística t é significativa na variável X com 99% de confiança. Portanto, você pode declarar as variáveis como tendo algum tipo de relacionamento.
É linear? Adicione uma variável X2 = (X-média (X)) ^ 2 e volte a regredir.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
O coeficiente em X ainda é significativo, mas X2 não é. X2 representa não linearidade. Então, você declara que o relacionamento parece ser linear.
O acima foi para um trabalho em casa.
Na vida real, as coisas são mais complicadas. Imagine que esses eram os dados de uma turma de alunos. Y - supino em libras, X - tempo em minutos prendendo a respiração antes do supino. Eu pediria o sexo dos alunos. Apenas por diversão, vamos adicionar outra variável, Z, e digamos que Z = 1 (meninas) para todos os Y <60 e Z = 0 (meninos) quando Y> = 60. Execute a regressão com três variáveis:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
O que aconteceu?! A "relação" entre X e Y desapareceu! Oh, parece que o relacionamento era falso devido a variável de confusão , gênero.
Qual é a moral da história? Você precisa saber quais são os dados para "explicar" o "relacionamento", ou mesmo para estabelecê-los em primeiro lugar. Nesse caso, no momento em que me disserem que os dados sobre a atividade física dos alunos, solicitarei imediatamente o sexo deles, e nem mesmo analisarei os dados sem obter a variável sexo.
Por outro lado, se você for solicitado a "descrever" o gráfico de dispersão, tudo dará certo. Correlações, ajustes lineares etc. Para o trabalho em casa, os dois primeiros passos acima devem ser suficientes: observe o coeficiente de X (relação) e depois X ^ 2 (linearidade). Certifique-se de diminuir a média da variável X (subtrair a média).