Como discutir um gráfico de dispersão com várias linhas emergentes?


11

Medimos duas variáveis, e o gráfico de dispersão parece sugerir vários modelos "lineares". Existe uma maneira de tentar destilar esses modelos? Identificar outras variáveis ​​independentes acabou sendo difícil.

Gráfico de dispersão das duas variáveis

Ambas as variáveis ​​são fortemente inclinadas para a esquerda (em direção aos pequenos números); essa é uma distribuição esperada em nosso domínio. A intensidade do ponto representa a quantidade de pontos de dados (em uma escala ) nessa < x , y > . log10<x,y>

Como alternativa, existe uma maneira de agrupar os pontos?

Em nosso campo, afirma-se que essas duas variáveis ​​se correlacionam linearmente. Estamos tentando entender / explicar por que não é o caso em nossos dados.

(observe, temos 17 milhões de pontos de dados)

update: obrigado por todas as respostas, aqui estão alguns esclarecimentos solicitados:

  • Ambas as variáveis ​​são apenas números inteiros, o que explica alguns dos padrões no gráfico de dispersão do log.
  • Felizmente, por definição, o valor mínimo de ambas as variáveis ​​é 1.
  • 7M pontos estão em ("explicado" pela inclinação à esquerda dos dados)<3,1>

Aqui estão os gráficos solicitados:

gráfico de dispersão de log-log: Gráfico de dispersão no log de log

(os espaços em branco são causados ​​pelos valores inteiros)

log-log polar: coordenadas polares θ=y

Histograma da razão: Histograma da razão

A frequência é numa escala logarítmica, uma vez que o bar é pontos 7M, e iria esconder as outras barras.1/3


2
(r,θ)XYθθ

Existem razões envolvidas na obtenção de Y e X? As variáveis ​​que usam apenas valores discretos estão envolvidas? Como ele se parece com um gráfico de log-log?
Glen_b -Reinstala Monica

1
@whuber & Glen_b Adicionei parcelas com essas transformações.
Davy Landman

rθθθ

@whuber Atualizei o enredo, coloque o teta no y, são estas as linhas que você quer dizer?
Davy Landman

Respostas:


7

YXY/X são favorecidos e eu certamente observaria a distribuição dessa proporção. Além disso, se assim for, na minha experiência, não é útil procurar modelos separados, a menos que você esteja realmente misturando situações bem diferentes. (Para "fisicamente", leia "biologicamente" ou qualquer advérbio que faça sentido.)

X/kkXk

Y=0log(Y+constant)

Um ponto de terminologia: a assimetria nas estatísticas é descrita com referência à cauda mais esticada. Você é livre para considerar essa terminologia como inversa. Aqui, ambas as variáveis ​​são inclinadas para valores altos ou positivamente ou para a direita.

Y=1Y=0

Como antes, eu não recomendaria modelar faixas diferentes de maneira diferente sem uma razão científica para distingui-las ou tratá-las separadamente. Você deve apenas média sobre o que você tem. (Pode haver métodos conhecidos com esse tipo de dados para suprimir a discrição. Se as pessoas em seu campo medem rotineiramente milhões de pontos para cada gráfico, é difícil acreditar que isso não tenha sido visto antes.)

A correlação certamente deve ser positiva. Além de um teste formal de significância, que aqui seria totalmente inútil, pois pequenas correlações serão consideradas significativas com esse tamanho de amostra, se declarado forte é uma questão de expectativas e padrões em seu campo. Comparar quantitativamente sua correlação com os resultados de outras pessoas é um caminho a percorrer.

Detalhe: a assimetria ainda é descrita de maneira errada, de acordo com a convenção estatística. Essas variáveis ​​estão inclinadas à direita; esse jargão se ajusta ao olhar para um histograma com eixo de magnitude horizontal e observar que a assimetria é nomeada para a cauda mais longa, não para a concentração com mais valores.


Adicionei plotagem de log-log e tentei ser mais preciso sobre a assimetria.
Davy Landman

4

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmthpmmpm=1

ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm1Mαβ

ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

5M+15M1δ,γ

M


2
M

2

Eu observei um comportamento semelhante em alguns dos meus conjuntos de dados. No meu caso, as várias linhas diferentes foram causadas por erro de quantização em um dos meus algoritmos de processamento.

Ou seja, observamos parcelas dispersas de dados processados ​​e o algoritmo de processamento teve alguns efeitos de quantização, que causaram dependências nos dados que se pareciam exatamente com as que você tem acima.

A correção dos efeitos da quantização fez com que nossa saída parecesse muito mais suave e menos agrupada.

Quanto ao seu comentário de "correlação linear". O que você apresentou é insuficiente para determinar se esses dados estão correlacionados linearmente ou não. Ou seja, em alguns campos, um coeficiente de correlação> 0,7 é considerado forte correlação linear. Dado que a maioria dos seus dados está próxima da origem, é perfeitamente concebível que seus dados sejam linearmente correlacionados em relação ao que a "sabedoria convencional" diria. A correlação diz muito pouco sobre um conjunto de dados.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.