Medimos duas variáveis, e o gráfico de dispersão parece sugerir vários modelos "lineares". Existe uma maneira de tentar destilar esses modelos? Identificar outras variáveis independentes acabou sendo difícil.
Ambas as variáveis são fortemente inclinadas para a esquerda (em direção aos pequenos números); essa é uma distribuição esperada em nosso domínio. A intensidade do ponto representa a quantidade de pontos de dados (em uma escala ) nessa < x , y > .
Como alternativa, existe uma maneira de agrupar os pontos?
Em nosso campo, afirma-se que essas duas variáveis se correlacionam linearmente. Estamos tentando entender / explicar por que não é o caso em nossos dados.
(observe, temos 17 milhões de pontos de dados)
update: obrigado por todas as respostas, aqui estão alguns esclarecimentos solicitados:
- Ambas as variáveis são apenas números inteiros, o que explica alguns dos padrões no gráfico de dispersão do log.
- Felizmente, por definição, o valor mínimo de ambas as variáveis é 1.
- 7M pontos estão em ("explicado" pela inclinação à esquerda dos dados)
Aqui estão os gráficos solicitados:
gráfico de dispersão de log-log:
(os espaços em branco são causados pelos valores inteiros)
log-log polar:
Histograma da razão:
A frequência é numa escala logarítmica, uma vez que o bar é pontos 7M, e iria esconder as outras barras.