@Ondrej e @Michelle forneceram algumas informações boas aqui. Gostaria de saber se posso contribuir abordando alguns pontos não mencionados em outros lugares. Eu não me incomodaria por não conseguir extrair muito dos dados em forma de tabela; as tabelas geralmente não são uma maneira muito boa de apresentar informações (cf. Gelman et al., Turning Tables into Graphs ). Por outro lado, pedir uma ferramenta que gere automaticamente todos os gráficos corretos para ajudá-lo a explorar um novo conjunto de dados é quase como pedir uma ferramenta que faça o que você pensa. (Não tome o caminho errado, reconheço que sua pergunta deixa claro que você não está indo tão longe; quero apenas dizer que nunca haverá realmente uma ferramenta assim.) Uma boa discussão relacionada a isso pode ser encontrada aqui .
Dito isto, eu queria falar um pouco sobre os tipos de parcelas que você pode usar para explorar seus dados. Os gráficos listados na pergunta seriam um bom começo, mas podemos otimizar um pouco. Para começar, fazer "um grande número de gráficos" correlacionar pares de variáveis pode não ser o ideal. Um gráfico de dispersão exibe apenas o relacionamento marginal entre duas variáveis. Muitas vezes, relacionamentos importantes podem estar ocultos em alguma combinação de várias variáveis. Portanto, a primeira maneira de reforçar essa abordagem é criar uma matriz de dispersãoque exibe todos os gráficos de dispersão em pares simultaneamente. As matrizes do gráfico de dispersão podem ser aprimoradas de várias maneiras: por exemplo, elas podem ser combinadas com gráficos de densidade de kernel univariados da distribuição de cada variável, marcadores / cores diferentes podem ser usados para plotar grupos diferentes e possíveis relacionamentos não-lineares podem ser avaliados sobrepondo-se um ajuste menor. A scatterplot.matrix
função no pacote de carro no R pode fazer todas essas coisas com perfeição (um exemplo pode ser visto no meio da página acima).
No entanto, embora as matrizes de gráficos de dispersão sejam um bom começo, elas ainda estão apenas exibindo as projeções marginais. Existem algumas maneiras de tentar ir além disso. Uma é explorar gráficos tridimensionais usando o pacote rgl em R. Outra abordagem é usar gráficos condicionais; coplots podem ajudar no relacionamento entre 3 ou 4 variáveis simultaneamente. Uma abordagem especialmente útil é usar uma matriz de dispersão interativamente(embora isso exija mais esforço para aprender), por exemplo, 'escovar'. A escovação permite destacar um ponto ou pontos em um quadro de uma matriz e esses pontos serão destacados simultaneamente em todos os outros quadros. Movendo o pincel, você pode ver como todas as variáveis mudam juntas. UPDATE: Outra possibilidade que eu tinha esquecido de mencionar é usar um gráfico de coordenadas paralelas . Isso tem uma desvantagem em não diferenciar sua variável de resposta, mas pode ser útil, por exemplo, ao examinar inter-correlações entre suas variáveis X.
Quero também elogiá-lo por examinar seus dados classificados por data de coleta. Embora os dados sejam sempre coletados ao longo do tempo, as pessoas nem sempre fazem isso. Traçar um gráfico de linha é bom, mas eu sugiro que você o complete com gráficos de autocorrelações e autocorrelações parciais . Em R, as funções para essas são acf
e pacf
respectivamente.
Reconheço que tudo isso não responde totalmente à sua pergunta no sentido de fornecer uma ferramenta que fará todos os enredos automaticamente, mas uma implicação é que você não precisaria fazer tantos enredos quanto teme. , por exemplo, uma matriz de dispersão é apenas uma linha de código. Além disso, em R, deve ser possível escrever uma função / algum código reutilizável para você, que parcialmente automatizaria parte disso (por exemplo, posso imaginar uma função que inclua uma lista de variáveis e uma ordem de data, classifique-as , aparece uma nova janela para cada uma com gráficos de linha, acf e pacf).