Explorar relações entre variáveis é bastante vago, mas eu acho que dois dos objetivos mais gerais de examinar gráficos de dispersão como esse;
- Identifique grupos latentes subjacentes (de variáveis ou casos).
- Identifique outliers (no espaço univariado, bivariado ou multivariado).
Ambos reduzem os dados em resumos mais gerenciáveis, mas têm objetivos diferentes. Para identificar grupos latentes, normalmente reduz-se as dimensões nos dados (por exemplo, via PCA) e depois explora se variáveis ou casos se agrupam nesse espaço reduzido. Veja, por exemplo, Friendly (2002) ou Cook et al. (1995).
Identificar discrepantes pode significar ajustar um modelo e plotar os desvios do modelo (por exemplo, plotar resíduos de um modelo de regressão) ou reduzir os dados em seus componentes principais e apenas destacar pontos que se desviam do modelo ou do corpo principal de dados. Por exemplo, boxplots em uma ou duas dimensões geralmente mostram apenas pontos individuais que estão fora das dobradiças (Wickham & Stryjewski, 2013). A plotagem de resíduos tem a propriedade legal de que deve achatar as plotagens (Tukey, 1977); portanto, qualquer evidência de relacionamento na nuvem de pontos restante é "interessante". Esta pergunta no CV tem algumas excelentes sugestões para identificar discrepâncias multivariadas.
Uma maneira comum de explorar SPLOMS tão grandes é não plotar todos os pontos individuais, mas algum tipo de resumo simplificado e, em seguida, talvez pontos que se afastem amplamente desse resumo, por exemplo, elipses de confiança, resumos escagnósticos (Wilkinson & Wills, 2008), bivariados gráficos de caixas, gráficos de contorno. Abaixo está um exemplo de plotagem de elipses que definem a covariância e a sobreposição de um loess mais suave para descrever a associação linear.
(fonte: statmethods.net )
De qualquer maneira, uma plotagem interativa de sucesso real com tantas variáveis provavelmente precisaria de classificação inteligente (Wilkinson, 2005) e uma maneira simples de filtrar variáveis (além de recursos de escovar / vincular). Além disso, qualquer conjunto de dados realista precisaria ter os recursos para transformar o eixo (por exemplo, plotar os dados em escala logarítmica, transformar os dados criando raízes etc.). Boa sorte e não fique com apenas um enredo!
Citações
- Cook, Dianne, Andreas Buja, Javier Cabrera e Catherine Hurley. 1995. Grand tour e busca de projeção. Journal of Computational and Graphical Statistics 4 (3): 155-172.
- Amigável, Michael. 2002. Corrgrams: Telas exploratórias para matrizes de correlação. The American Statistician 56 (4): 316-324. Pré-impressão em PDF .
- Tukey, John. 1977. Análise Exploratória de Dados. Addison-Wesley. Leitura, missa.
- Wickham, Hadley e Lisa Stryjewski. 2013. 40 anos de boxplots .
- Wilkinson, Leland e Graham Wills. 2008. Distribuições Scagnostic. Journal of Computational and Graphical Statistics 17 (2): 473-491.
- Wilkinson, Leland. 2005. A gramática dos gráficos . Springer. Nova Iorque, NY.