Qual é a relação entre


38

Qual é a relação entre Y e X no gráfico a seguir? Na minha opinião, existe um relacionamento linear negativo, mas, como temos muitos discrepantes, o relacionamento é muito fraco. Estou certo? Quero aprender como podemos explicar gráficos de dispersão.

insira a descrição da imagem aqui


3
O que é ? O que é Y ? Que processo você produziu valores extremos? O que faz você pensar que elas não são medidas reais? Qual é a teoria? XY
precisa saber é o seguinte

4
Obrigado por seu comentário. Acabei de ver esse enredo em um livro. Y é variável dependente e X é variável independente. Não há teoria. plotou um gráfico de dispersão para mostrar a relação de Y dado x. E há uma pergunta no livro que pergunta se existe algum relacionamento ou não, Linear ou não linear? Forte ou fraco?
PSS

7
Este é um exercício de tasseografia . Isso é muito popular entre os comerciantes de dia, e eles chamam de análise técnica . Basicamente, sem saber algo sobre a natureza dos dados é um exercício inútil
Aksakal

1
@chl você rock para doar para uma recompensa para whuber =)
Cam.Davidson.Pilon

3
A linguagem estatística do @Aksakal geralmente entende "relacionamento" literalmente: como descrever conjuntos de tuplas de números. Por exemplo, um coeficiente de correlação descreve um relacionamento. Não há implicações sobre a gênese, natureza ou associações causais entre variáveis ​​subjacentes. Eu concordo com você que "explicar" geralmente é entendido em um sentido mais profundo, mas como os relacionamentos são tão enfatizados na pergunta, acho justo não forçar demais o significado literal de "explicar". Sugerir que descrever gráficos de dispersão é apenas uma leitura de folhas de chá vai longe demais, IMHO.
whuber

Respostas:


51

A pergunta lida com vários conceitos: como avaliar dados fornecidos apenas na forma de um gráfico de dispersão, como resumir um gráfico de dispersão e se (e em que grau) um relacionamento parece linear. Vamos levá-los em ordem.

Avaliando dados gráficos

Use princípios de análise exploratória de dados (EDA). Estes (pelo menos originalmente, quando foram desenvolvidos para uso com lápis e papel) enfatizam resumos de dados simples, fáceis de calcular e robustos. Um dos tipos mais simples de resumos é baseado em posições dentro de um conjunto de números, como o valor do meio, que descreve um valor "típico". É fácil estimar Middles com precisão a partir de gráficos.

Os gráficos de dispersão exibem pares de números. O primeiro de cada par (conforme plotado no eixo horizontal) fornece um conjunto de números únicos, que poderíamos resumir separadamente.

Nesse gráfico de dispersão específico, os valores-y parecem estar em dois grupos quase completamente separados : os valores acima de na parte superior e aqueles iguais ou inferiores a 60 na parte inferior. (Essa impressão é confirmada através do desenho de um histograma dos valores y, que é nitidamente bimodal, mas seria muito trabalhoso nesta fase.) Convido os céticos a olhar de soslaio para o gráfico de dispersão. Quando o faço - usando um borrão gaussiano de raio grande e corrigido por gama (ou seja, um resultado padrão de processamento rápido de imagem) dos pontos no gráfico de dispersão, vejo o seguinte:6060

Figura 0

Os dois grupos - superior e inferior - são bastante aparentes. (O grupo superior é muito mais claro que o inferior porque contém muito menos pontos.)

Portanto, vamos resumir os grupos de valores y separadamente. Farei isso desenhando linhas horizontais nas medianas dos dois grupos. Para enfatizar a impressão dos dados e mostrar que não estamos fazendo nenhum tipo de cálculo, eu (a) removi todas as decorações como eixos e linhas de grade e (b) desfoquei os pontos. Pouca informação sobre os padrões nos dados é perdida, "apertando os olhos" no gráfico:

Figura

Da mesma forma, tentei marcar as medianas dos valores x com segmentos de linha verticais. No grupo superior (linhas vermelhas), você pode verificar - contando os blobs - se essas linhas realmente separam o grupo em duas metades iguais, horizontal e verticalmente. No grupo inferior (linhas azuis), apenas estimei visualmente as posições sem realmente contar.

Avaliando Relacionamentos: Regressão

Os pontos de interseção são os centros dos dois grupos. Um excelente resumo da relação entre os valores x e y seria relatar essas posições centrais. Alguém poderia então complementar este resumo com uma descrição de quanto os dados estão espalhados em cada grupo - à esquerda e à direita, acima e abaixo - ao redor de seus centros. Por questões de brevidade, não farei isso aqui, mas observe que (aproximadamente) os comprimentos dos segmentos de linha que desenhei refletem os spreads gerais de cada grupo.

Por fim, desenhei uma linha (tracejada) conectando os dois centros. Esta é uma linha de regressão razoável. É uma boa descrição dos dados? Certamente que não: veja como os dados estão espalhados nessa linha. É mesmo evidência de linearidade? Isso é pouco relevante porque a descrição linear é muito ruim. No entanto, porque essa é a questão diante de nós, vamos abordar isso.

Avaliando a linearidade

A relação é linear no sentido estatístico quando ambos os valores de y variam de um modo aleatório equilibrado em torno de uma linha ou os valores de x são vistas para variar de um modo aleatório equilibrado em torno de uma linha (ou ambos).

O primeiro não parece ser o caso aqui: como os valores de y parecem se dividir em dois grupos, sua variação nunca parecerá equilibrada no sentido de serem distribuídos simetricamente acima ou abaixo da linha. (Isso exclui imediatamente a possibilidade de despejar os dados em um pacote de regressão linear e executar um ajuste de mínimos quadrados de y contra x: as respostas não seriam relevantes.)

E a variação em x? Isso é mais plausível: a cada altura do gráfico, a dispersão horizontal de pontos ao redor da linha pontilhada é bastante equilibrada. A dispersão nessa dispersão parece ser um pouco maior em alturas mais baixas (valores baixos de y), mas talvez seja porque há muito mais pontos lá. (Quanto mais dados aleatórios você tiver, mais distanciados serão os valores extremos.)

Além disso, à medida que examinamos de cima para baixo, não há lugares onde a dispersão horizontal ao redor da linha de regressão seja fortemente desequilibrada: isso seria evidência de não linearidade. (Bem, talvez em torno de y = 50 ou mais, possa haver muitos valores grandes de x. Esse efeito sutil pode ser tomado como evidência adicional para dividir os dados em dois grupos em torno do valor de y = 60.)

Conclusões

Vimos isso

  • Faz sentido visualizar x como uma função linear de y mais alguma variação aleatória "agradável".

  • Ela não faz sentido vista y como uma função linear de x mais variação aleatória.

  • Uma linha de regressão pode ser estimada separando os dados em um grupo de altos valores de y e um grupo de baixos valores de y, localizando os centros de ambos os grupos usando medianas e conectando esses centros.

  • A linha resultante tem uma inclinação descendente, indicando uma relação linear negativa .

  • Não há fortes desvios da linearidade.

  • No entanto, como os spreads dos valores x ao redor da linha ainda são grandes (em comparação com o spread geral dos valores x, para começar), teríamos que caracterizar essa relação linear negativa como "muito fraca".

  • Pode ser mais útil descrever os dados como formando duas nuvens em forma oval (uma para y acima de 60 e outra para valores mais baixos de y). Dentro de cada nuvem, há pouca relação detectável entre x e y. Os centros das nuvens estão próximos (0,29, 90) e (0,38, 30). As nuvens têm spreads comparáveis, mas a nuvem superior tem muito menos dados que a mais baixa (talvez 20% a mais).

Duas dessas conclusões confirmam as feitas na própria pergunta de que existe um relacionamento negativo fraco. Os outros complementam e apóiam essas conclusões.

Uma conclusão tirada na pergunta que parece não se sustentar é a afirmação de que existem "discrepâncias". Um exame mais cuidadoso (como esboçado abaixo) não apresentará pontos individuais, nem mesmo pequenos grupos de pontos que validamente possam ser considerados distantes. Após uma análise suficientemente longa, pode-se chamar a atenção para os dois pontos próximos ao meio direito ou o ponto inferior esquerdo, mas mesmo estes não mudarão muito a avaliação dos dados, sejam eles considerados ou não periférico.


Instruções adicionais

Muito mais poderia ser dito. Os próximos passos seriam avaliar os spreads dessas nuvens. Os relacionamentos entre x e y em cada uma das duas nuvens podem ser avaliados separadamente, usando as mesmas técnicas mostradas aqui. A leve assimetria da nuvem mais baixa (mais dados parecem aparecer nos menores valores de y) pode ser avaliada e até ajustada reexpressando os valores de y (uma raiz quadrada pode funcionar bem). Nesse estágio, faria sentido procurar dados externos, porque nesse momento a descrição incluiria informações sobre valores de dados típicos e seus spreads; os outliers (por definição) estariam muito longe do meio para serem explicados em termos da quantidade observada de propagação.

Nada desse trabalho - que é bastante quantitativo - exige muito mais do que encontrar um meio de grupos de dados e fazer alguns cálculos simples com eles, e, portanto, pode ser feito com rapidez e precisão, mesmo quando os dados estão disponíveis apenas na forma gráfica. Todos os resultados aqui relatados - incluindo os valores quantitativos - podem ser facilmente encontrados em poucos segundos, usando um sistema de exibição (como cópia impressa e lápis :-)) que permite fazer marcas de luz no topo do gráfico.


4
Uau. Eu nunca teria visto esses dois grupos e a linha resultante. E eu questiono isso.
rvl

4
@Russ Fico feliz em saber que alguém questiona essa exploração, porque nenhuma EDA é única ou adequada. Incluí outra imagem para ajudá-lo a ver o que vejo. Gostaria de convidá-lo a postar uma resposta que seja igualmente ou mais parcimoniosa e útil.
whuber

12
Como seres humanos, somos extraordinariamente inclinados a encontrar padrões, mesmo os que não existem. Eu acho que é bastante plausível obter um gráfico de dispersão como o que temos aqui com apenas dois RVs independentes, um deles distorcido. Não tenho prova disso e não tenho uma análise alternativa a oferecer - além de uma que diz que há pouco ou nenhum relacionamento. Sim, é possível que a bimodalidade esteja presente. Se o processo pudesse ser observado mais adiante, poderíamos ver o que acontece. Só acho que precisamos ser cautelosos e conscientes de nossa inclinação para reagir a padrões plausivelmente espúrios.
rvl

4
@ Russ Você está correto. É necessária experiência para evitar a leitura excessiva de padrões. Minha experiência diz que, com 150-200 pontos, é difícil obter aleatoriamente a forte bimodalidade que eu medi nas coordenadas y. Hoje em dia, essa experiência pode ser facilmente e rapidamente complementada por simulação: quando você acha que vê um padrão, (1) o caracteriza quantitativamente e (2) o procura em amostras aleatórias geradas de acordo com uma hipótese alternativa mais simples. Se o padrão aparecer muito, você pode culpar o córtex visual, mas, caso contrário, pode ter encontrado alguma coisa.
whuber

1
@Russ Obrigado. Esse não foi o gráfico residual que descrevi - os papéis de x e y são invertidos. No entanto, é informativo, no entanto. A heterocedasticidade é a coisa mais impressionante: na verdade, parece apoiar a hipótese dos dois agrupamentos (o que faria a heterocedasticidade desaparecer). Veja bem, eu sou agnóstico sobre essa hipótese. Tudo o que escrevi aqui está no espírito original de descrição cuidadosa e robusta dos dados. Qualquer curva única como descrição desses dados será grosseira e talvez insatisfatória.
whuber

31

Vamos nos divertir!

Antes de tudo, raspei os dados do seu gráfico.

Em seguida, usei uma linha de execução mais suave para produzir a linha de regressão preta abaixo, com as faixas tracejadas de IC de 95% em cinza. O gráfico abaixo mostra um intervalo na metade de dados suave, embora períodos mais apertados tenham revelado mais ou menos precisamente a mesma relação. A ligeira mudança na inclinação em torno de sugeriu uma relação que poderia ser aproximada usando um modelo linear e adicionando uma função de dobradiça linear da inclinação de X em uma regressão não linear de mínimos quadrados (linha vermelha):X=0,4X

Y=β0 0+βXX+βcmax(X-θ,0 0)+ε

As estimativas do coeficiente foram:

Y=50,9-37,7X-26.74436max(X-0,46,0 0)

Eu observaria que, embora o whuber redobrável afirme que não há relações lineares fortes, o desvio da linha implícito no termo de dobradiça está na mesma ordem que a inclinação de X (isto é, 37,7), então eu discordaria respeitosamente que não vemos um relacionamento não-linear forte (ou seja, Sim, não há relacionamentos fortes, mas o termo não-linear é tão forte quanto o linear).Y=50,9-37,7XX

Tempo de jogo com dados


YYXR2YN=170X>0,5Y

em(Y)

(A linha vermelha é simplesmente uma regressão linear de ln (Y) em X.)

Atualizado com gráfico por sugestão de Russ Lenth.

registroYXYregistroYXYXregistro(Y)XYX


1
registroYXY

1
@Russ É clássico que as distribuições bimodais possam parecer distorcidas e sugerir transformações de log. Mas a distribuição y aqui é realmente bimodal e um log provavelmente não é uma maneira útil de expressá-la novamente. Quando os dois componentes são separados, o mais baixo ainda é inclinado positivamente e uma raiz quadrada tem a quantidade certa para transformá-lo para obter uma distribuição simétrica. A raiz quadrada não afeta consideravelmente a simetria do grupo superior, indicando que a raiz pode ser uma boa escolha. No entanto, isso não corrige a bimodalidade - e é aí que reside o problema com qualquer suavidade desse tipo.
whuber

1
Alexis, em nossas respostas, nós dois somos culpados de usar "forte" de maneiras indefinidas. O sentido em que eu quis dizer "fraco" foi sugerido em algumas frases, o que significava que a inclinação é pequena em comparação com a dispersão nos valores de y. Não acho que sua análise chegue a uma conclusão diferente a esse respeito. Senti uma necessidade de cautela porque, aceitando hipoteticamente que poderia haver mérito no modelo de mistura para y, parece que no grupo superior pode realmente haver uma relação positiva fraca entre xey e nenhuma relação no grupo inferior.
whuber

3
Alexis, o livro EDA de Tukey está cheio deles. Para obter mais técnicas (de maior sofisticação, com justificativa matemática), consulte Hoaglin, Mosteller e Tukey, Entendendo a análise robusta e exploratória de dados .
whuber

2
@rivu manual. Tomou 10 ou 15 minutos no máximo. Posicione cada ponto inicialmente com o ponteiro e, em seguida, localize-o com precisão usando as teclas de seta.
Alexis #

21

Aqui está o meu 2 ¢ 1,5 ¢. Para mim, a característica mais importante é que os dados param abruptamente e se agrupam na parte inferior do intervalo de Y. Eu vejo os dois (potenciais) 'clusters' e a associação negativa geral, mas as características mais salientes são as (potencial) efeito de piso e o fato de que o cluster superior de baixa densidade se estende apenas por parte da faixa de X.

Como os 'aglomerados' são vagamente bivariados normais, um modelo paramétrico de mistura normal pode ser interessante para tentar. Usando os dados do @Alexis, acho que três clusters otimizam o BIC. O 'efeito de piso' de alta densidade é escolhido como um terceiro cluster. O código a seguir:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

insira a descrição da imagem aqui

Agora, o que devemos deduzir disso? Eu não acho que isso Mclustseja apenas o reconhecimento de padrões humanos que deu errado. (Embora minha leitura do gráfico de dispersão possa muito bem ser.) Por outro lado, não há dúvida de que isso é post-hoc . Vi o que pensei ser um padrão interessante e decidi verificá-lo. O algoritmo encontra algo, mas só verifiquei o que achava que poderia estar lá, então meu polegar está definitivamente na escala. Às vezes, é possível elaborar uma estratégia para mitigar isso (consulte a excelente resposta do @ whuber aqui ), mas não tenho idéia de como executar esse processo em casos como esse. Como resultado, eu tomo esses resultados com muito sal (eu já fazia esse tipo de coisa com frequência suficiente para que alguém estivesse sentindo falta de um shaker inteiro) Isso me fornece algum material para pensar e discutir com meu cliente quando nos encontrarmos. Quais são esses dados? Faz algum sentido que possa haver um efeito de piso? Faria sentido que houvesse grupos diferentes? Quão significativo / surpreendente / interessante / importante seria se fossem reais? Existem dados independentes / poderíamos levá-los a realizar convenientemente um teste honesto dessas possibilidades? Etc.


1
+1 Por apontar como uma análise exploratória naturalmente leva a perguntas interessantes . Eu gostaria de ter enfatizado esse ponto mais na minha resposta. Embora eu ache que seria demais acreditar (atualmente) que existem realmente três grupos distintos, os resultados do cluster ainda apresentam uma maneira válida de ver que existe uma relação negativa entre xey e de resumir essa relação. Sou levado a pensar até que ponto o agrupamento automático pode ser uma ferramenta exploratória geralmente útil - desde que não sejamos tentados a ler muito os resultados.
whuber

14

Deixe-me descrever o que vejo assim que olho para ele:

yxyx0.5Y|xx é quase plana. (Veja as linhas vermelhas e azuis abaixo, desenhadas aproximadamente onde acho que deve haver uma sensação aproximada de localização)

X , podemos continuar dizendo mais:

x>0.5x caia e, abaixo de 0,2, o grupo inferior é muito menos denso que acima dele, aumentando a média geral mais alta.

E(Y|X=x)x mas com uma região ampla e quase plana no centro. (Veja linha tracejada roxa)

insira a descrição da imagem aqui

YXYXY|x ).

Foi o que vi baseado em uma inspeção puramente "ocular". Com um pouco de brincadeira em algo como um programa básico de manipulação de imagens (como o que eu desenhei as linhas), poderíamos começar a descobrir alguns números mais precisos. Se digitalizarmos os dados (o que é bastante simples com ferramentas decentes, às vezes um pouco entediantes para acertar), podemos realizar análises mais sofisticadas desse tipo de impressão.

Esse tipo de análise exploratória pode levar a algumas questões importantes (às vezes, que surpreendem a pessoa que possui os dados, mas que apenas mostrou um gráfico), mas devemos tomar cuidado com o grau em que nossos modelos são escolhidos por essas inspeções - se Se aplicamos modelos escolhidos com base na aparência de um gráfico e, em seguida, estimamos esses modelos nos mesmos dados, tenderemos a encontrar os mesmos problemas que encontramos quando usamos uma seleção e estimativa de modelos mais formais nos mesmos dados. [Isso não é para negar a importância da análise exploratória - é só que devemos ter cuidado com as consequências de fazê-lo sem levar em consideração modo como o fazemos. ]


Resposta aos comentários de Russ:

[editar mais tarde: para esclarecer - eu concordo amplamente com as críticas de Russ tomadas como precaução geral, e certamente há alguma possibilidade que eu já vi mais do que realmente existe. Pretendo voltar e editá-los em um comentário mais extenso sobre padrões espúrios que comumente identificamos a olho nu e maneiras pelas quais podemos começar a evitar o pior disso. Acredito que também poderei acrescentar algumas justificativas sobre o motivo pelo qual acho que não é apenas falso neste caso específico (por exemplo, através de um regressograma ou um kernel de ordem 0, embora, é claro, não haja mais dados para testar, apenas até onde isso pode ir; por exemplo, se nossa amostra não é representativa, mesmo a reamostragem só nos leva tão longe.]

Concordo plenamente que temos uma tendência a ver padrões espúrios; é um argumento que faço frequentemente aqui e em outros lugares.

Uma coisa que sugiro, por exemplo, ao analisar gráficos residuais ou gráficos de QQ é gerar muitos gráficos em que a situação é conhecida (tanto como as coisas devem ser como onde as suposições não se aplicam) para ter uma idéia clara de quanto padrão deve ser ignorado.

Aqui está um exemplo em que um gráfico de QQ é colocado entre outros 24 (que satisfazem as suposições), para que possamos ver o quão incomum o gráfico é. Esse tipo de exercício é importante porque ajuda a evitar enganar a nós mesmos, interpretando cada pequeno movimento, a maioria dos quais será um ruído simples.

Costumo salientar que, se você pode alterar uma impressão cobrindo alguns pontos, podemos estar contando com uma impressão gerada por nada mais que ruído.

[No entanto, quando é aparente em muitos pontos e não em poucos, é mais difícil sustentar que não está lá.]

Y .

Quando não temos mais dados para verificar, podemos pelo menos verificar se a impressão tende a sobreviver à reamostragem (inicialize a distribuição bivariada e veja se ela quase sempre está presente) ou outras manipulações nas quais a impressão não deve ser aparente se é barulho simples.

1) Aqui está uma maneira de ver se a bimodalidade aparente é mais do que apenas distorção e ruído - ela aparece em uma estimativa de densidade do kernel? Ainda é visível se traçarmos estimativas de densidade de kernel sob uma variedade de transformações? Aqui, eu o transformo para uma maior simetria, com 85% da largura de banda padrão (já que estamos tentando identificar um modo relativamente pequeno e a largura de banda padrão não é otimizada para essa tarefa):

insira a descrição da imagem aqui

YYlog(Y)6868log(68) . A bimodalidade é diminuída, mas ainda bem visível. Como está muito claro no KDE original, parece confirmar que está lá - e o segundo e o terceiro gráficos sugerem que é pelo menos um pouco robusto à transformação.

2) Aqui está outra maneira básica de ver se é mais do que apenas "ruído":

Etapa 1: executar o clustering em Y

insira a descrição da imagem aqui

X

insira a descrição da imagem aqui

Os pontos com pontos foram agrupados de maneira diferente do agrupamento "tudo em um conjunto" no gráfico anterior. Farei um pouco mais tarde, mas parece que talvez haja realmente uma "divisão" horizontal perto dessa posição.

E(Y|x) ). Ainda não gerei, mas vamos ver como eles vão. Eu provavelmente excluiria os extremos onde há poucos dados.

3) Editar: Aqui está o regressograma, para compartimentos de largura 0,1 (excluindo as extremidades, como sugeri anteriormente):

insira a descrição da imagem aqui

Isso é totalmente consistente com a impressão original que tive da trama; isso não prova que meu raciocínio estava correto, mas minhas conclusões chegaram ao mesmo resultado que o regressograma.

E(Y|x)

(A próxima coisa a tentar seria um estimador de Nadayara-Watson. Então, eu posso ver como isso ocorre na reamostragem, se eu tiver tempo.)

4) Edição posterior:

Nadarya-Watson, kernel gaussiano, largura de banda 0,15:

insira a descrição da imagem aqui

Novamente, isso é surpreendentemente consistente com a minha impressão inicial. Aqui estão os estimadores do NW com base em dez reamostragens de bootstrap:

insira a descrição da imagem aqui

O padrão geral está lá, embora algumas reamostragens não sigam tão claramente a descrição com base em todos os dados. Vimos que o caso do nível da esquerda é menos certo do que do direito - o nível de ruído (em parte de poucas observações, em parte da ampla distribuição) é tal que é menos fácil afirmar que a média é realmente mais alta esquerda do que no centro.

Minha impressão geral é que provavelmente não estava me enganando, porque os vários aspectos enfrentam moderadamente bem uma variedade de desafios (suavização, transformação, divisão em subgrupos, reamostragem) que tenderiam a obscurecê-los se fossem simplesmente ruído. Por outro lado, as indicações são de que os efeitos, embora amplamente consistentes com a minha impressão inicial, são relativamente fracos, e pode ser demais reivindicar qualquer mudança real na expectativa, movendo-se do lado esquerdo para o centro.


1
Eu questionei uma resposta, mas este Estou confiante em dizer que é encontrar material que não está lá
RVL

1
Tentei reverter meu voto negativo, mas acho que não posso. Só porque eu realmente discordo de sua resposta não significa necessariamente que ela não contribua para a discussão. Não tenho certeza de como usar-se-votos, e fazer pessoal não dizer nada com it.p
RVL

4
@ Russ não se preocupe com o voto negativo, isso realmente não importa, fora o fato de que sinaliza que há algo que eu deveria abordar. Muito mais importante para entender por que discordamos (na medida em que o fazemos) do que se preocupar com pontos de internet falsos. Você tem uma objeção que vale a pena discutir, e eu ficaria feliz em pagar dez vezes esse voto negativo para ter essa breve discussão. Encorajo-vos a me rebaixar sempre que discordar, se você disser o porquê. Essa é a minha chance de aprender alguma coisa.
Glen_b -Reinstate Monica

1
@RussLenth, você pode desfazer um voto negativo (ou voto positivo) clicando novamente no voto negativo. Se você não souber onde seus votos estão no texto suspenso sobre a seta para baixo (ou para cima), você será informado.
Alexis8

4
+1 Na verdade, fiz muitas dessas análises, mas não queria estender demais minha resposta com esses resultados. Você fez um ótimo trabalho ao apresentá-lo de forma clara, legível e convincente. Uma coisa que fiz, além disso, foi regredir (na verdade, suavizar) x contra y (apesar da caracterização de y como "dependente"): acho que o resultado foi útil na avaliação da não-linearidade no relacionamento de uma maneira que é agnóstico sobre se y deve ser tratado como um ou dois grupos.
whuber

13

registroyxgráfico de log (Y) vs. X

E as correlações:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

O teste de correlação indica uma provável dependência negativa. Continuo não convencido de qualquer bimodalidade (mas também não convencido de que está ausente).

[Eu removi uma plotagem residual que possuía em uma versão anterior porque negligenciei o ponto que @whuber estava tentando prever X|Y.]


2
Aliás ... me ocorreu que tomar a transformação log (Y) como dependente ainda é equivalente a encontrar uma relação não linear ... o log (Y) é mais agradável para os resíduos do que para a função de dobradiça com a qual eu joguei no minha resposta ... mas uma das conclusões é semelhante: a relação entre Y e X tem melhores expressões funcionais do que Y=uma+bX.
Alexis8 /

Obrigado por esse enredo residual, Russ. Isso não é uma solicitação, mas gostaria de salientar que o que achei interessante - e talvez de maior valor para explorar o GoF - foi a relação de x em função de y, e não dessa maneira. Observar os x residuais leva a algumas perguntas adicionais (talvez úteis), até agora não levantadas, como se poderíamos aprender algo através de re-expressões não lineares de x (sim, podemos); se muito pode ser dito, independentemente da hipótese de duas populações (sim, novamente) e sobre a robustez do meu ajuste (é muito robusta).
whuber

Bem, talvez você queira fazer o gráfico residual para isso. Estou mudando para outras coisas.
rvl

5

Russ Lenth se perguntou como seria o gráfico se o eixo Y fosse logarítmico. Alexis raspou os dados, por isso é fácil traçar com um eixo de log:

insira a descrição da imagem aqui

Em uma escala logarítmica, não há indícios de bimodalidade ou tendência. Se uma escala de log faz sentido ou não depende, é claro, dos detalhes do que os dados representam. Da mesma forma, se faz sentido pensar que os dados representam amostras de duas populações, como sugere o whuber, depende dos detalhes.


Adendo: Com base nos comentários abaixo, aqui está uma versão revisada:

insira a descrição da imagem aqui


Postei meu gráfico alguns minutos depois de Russ Lenth postar o dele. Eu não tinha visto o dele, ou não teria postado o meu.
Harvey Motulsky

Acho que, na estimativa, os resultados da regressão (linear) são mais fortes com o log (Y)
Alexis #

9
Este gráfico apresenta um exemplo interessante do efeito de uma má escolha de visualização: diminuindo a proporção e estendendo o eixo y mais do que o dobro do necessário, o software suprimiu automaticamente a impressão visual de qualquer dispersão vertical, dificultando ao espectador ver muita coisa. É por isso que uma boa exploração, embora guiada pela representação gráfica, deve (a) usar métodos adequados de visualização que revelem , em vez de suprimir, o comportamento dos dados e (b) apoiá-los com análises adicionais (como mostrado na publicação de @ Glen_b) .
whuber

Para os intervalos de Y na pergunta, a base de log 2 seria uma escolha mais simples de ter um intervalo razoável de valores para o eixo Y. Também impediria o intervalo superior dos valores agradáveis ​​de 1 e 1.000, que não estão de acordo com os dados disponíveis.
Andy W

1

Bem, você está certo, o relacionamento é fraco, mas não zero. Eu acho que positivo. No entanto, não adivinhe, basta executar uma regressão linear simples (regressão OLS) e descobrir! Lá você terá uma inclinação de xxx que indica qual é o relacionamento. E sim, você tem discrepâncias que podem influenciar os resultados. Isso pode ser tratado. Você pode usar a distância de Cook ou criar um gráfico de alavancagem para estimar o efeito dos discrepantes no relacionamento.

Boa sorte


O que faz você pensar que eles são realmente discrepantes, em vez de o DGP não ser linear?
abaumann

Bem, suponho que também possa ser o caso. Mas é difícil dizer, os pontos estão tão dispersos.
Helgi Guðmundsson

Por que assumir linearidade com o OLS? Regressão não paramétrica FTW! :)
Alexis #

1
O @Alexis está correto ao enfatizar que suposições como linearidade devem ser justificadas, seja pela teoria do domínio ou pela verificação do modelo. No entanto, acho que a exclusão definitiva de outliers sem considerar cuidadosamente por que esses valores ocorreram é um erro muito comum na análise estatística.
precisa saber é o seguinte

Sim, os outliers não podem ser excluídos sem uma boa justificativa, como valor errado. Mas as transformações podem ajudar a ajustar a distribuição do valor para um melhor ajuste e reduzir os valores extremos. E sim, eu concordo, acredito que é bastante comum excluir discrepantes sem uma causa justificável.
Helgi Guðmundsson

1

Você já forneceu alguma intuição à sua pergunta, observando a orientação dos pontos de dados X / Y e sua dispersão. Em resumo, você está correto.

Em termos formais, a orientação pode ser referida como sinal de correlação e dispersão como variância . Esses dois links fornecerão mais informações sobre como interpretar orelacionamento linear entre duas variáveis.


0

Este é um trabalho em casa. Portanto, a resposta para sua pergunta é simples. Execute uma regressão linear de Y em X, você obterá algo como isto:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Portanto, a estatística t é significativa na variável X com 99% de confiança. Portanto, você pode declarar as variáveis ​​como tendo algum tipo de relacionamento.

É linear? Adicione uma variável X2 = (X-média (X)) ^ 2 e volte a regredir.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

O coeficiente em X ainda é significativo, mas X2 não é. X2 representa não linearidade. Então, você declara que o relacionamento parece ser linear.

O acima foi para um trabalho em casa.

Na vida real, as coisas são mais complicadas. Imagine que esses eram os dados de uma turma de alunos. Y - supino em libras, X - tempo em minutos prendendo a respiração antes do supino. Eu pediria o sexo dos alunos. Apenas por diversão, vamos adicionar outra variável, Z, e digamos que Z = 1 (meninas) para todos os Y <60 e Z = 0 (meninos) quando Y> = 60. Execute a regressão com três variáveis:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

O que aconteceu?! A "relação" entre X e Y desapareceu! Oh, parece que o relacionamento era falso devido a variável de confusão , gênero.

Qual é a moral da história? Você precisa saber quais são os dados para "explicar" o "relacionamento", ou mesmo para estabelecê-los em primeiro lugar. Nesse caso, no momento em que me disserem que os dados sobre a atividade física dos alunos, solicitarei imediatamente o sexo deles, e nem mesmo analisarei os dados sem obter a variável sexo.

Por outro lado, se você for solicitado a "descrever" o gráfico de dispersão, tudo dará certo. Correlações, ajustes lineares etc. Para o trabalho em casa, os dois primeiros passos acima devem ser suficientes: observe o coeficiente de X (relação) e depois X ^ 2 (linearidade). Certifique-se de diminuir a média da variável X (subtrair a média).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.