Contexto:
Ao longo do tempo, adquiri um conjunto de heurísticas sobre como planejar efetivamente a associação entre duas variáveis numéricas. Eu imagino que a maioria das pessoas que trabalha com dados teria um conjunto de regras semelhante.
Exemplos de tais regras podem ser:
- Se uma das variáveis for inclinada positivamente, considere plotar esse eixo em uma escala de log.
- Se houver muitos pontos de dados (por exemplo, n> 1000), adote uma estratégia diferente, como usar alguma forma de transparência parcial ou amostrar os dados;
- Se uma das variáveis assume um número limitado de categorias discretas, considere o uso de um jitter ou um gráfico de girassol;
- Se houver três ou mais variáveis, considere usar uma matriz de gráficos de dispersão;
- Ajustar alguma forma de linha de tendência geralmente é útil;
- Ajuste o tamanho do caractere de plotagem para o tamanho da amostra (para n maior, use um caractere de plotagem menor);
- e assim por diante.
Questão:
Eu gostaria de poder indicar aos alunos uma página da web ou site que explica esses e outros truques para plotar efetivamente associações entre duas variáveis numéricas, talvez com exemplos.
- Existem páginas ou sites na internet que fazem um bom trabalho?