O que é um gráfico apropriado para ilustrar a relação entre duas variáveis ordinais?
Algumas opções que posso pensar:
- Gráfico de dispersão com tremulação aleatória adicionada para impedir que os pontos se ocultem. Aparentemente, um gráfico padrão - o Minitab chama isso de "gráfico de valores individuais". Na minha opinião, pode ser enganoso, pois encoraja visualmente um tipo de interpolação linear entre os níveis ordinais, como se os dados fossem de uma escala de intervalo.
- Gráfico de dispersão adaptado para que o tamanho (área) do ponto represente a frequência dessa combinação de níveis, em vez de desenhar um ponto para cada unidade de amostragem. Ocasionalmente, vi tais conspirações na prática. Eles podem ser difíceis de ler, mas os pontos estão em uma rede com espaçamento regular que supera de certa forma as críticas ao gráfico de dispersão nervoso que "visualiza" os dados.
- Especialmente se uma das variáveis for tratada como dependente, um gráfico de caixa agrupado pelos níveis da variável independente. É provável que pareça terrível se o número de níveis da variável dependente não for suficientemente alto (muito "plano" com falta de bigodes ou quartis ainda piores, o que impossibilita a identificação visual da mediana), mas pelo menos chama a atenção para mediana e quartis que são estatística descritiva relevante para uma variável ordinal.
- Tabela de valores ou grade em branco de células com mapa de calor para indicar frequência. Visualmente diferente, mas conceitualmente semelhante ao gráfico de dispersão, com a área do ponto mostrando a frequência.
Existem outras idéias ou pensamentos sobre quais parcelas são preferíveis? Existem campos de pesquisa em que certas parcelas ordinais versus ordinais são consideradas padrão? (Parece que me lembro do mapa de calor de frequência sendo generalizado na genômica, mas suspeito que isso seja mais frequente para nominal versus nominal.) Sugestões para uma boa referência padrão também seriam muito bem-vindas, estou supondo algo da Agresti.
Se alguém quiser ilustrar com um gráfico, segue o código R para dados de amostra falsos.
"Qual a importância do exercício para você?" 1 = nada importante, 2 = um tanto sem importância, 3 = nem importante nem sem importância, 4 = um pouco importante, 5 = muito importante.
"Com que regularidade você leva 10 minutos ou mais?" 1 = nunca, 2 = menos de uma vez por quinzena, 3 = uma vez a cada uma ou duas semanas, 4 = duas ou três vezes por semana, 5 = quatro ou mais vezes por semana.
Se seria natural tratar "frequentemente" como uma variável dependente e "importância" como uma variável independente, se um gráfico distingue entre os dois.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Uma questão relacionada a variáveis contínuas achei útil, talvez um ponto de partida útil: quais são as alternativas aos gráficos de dispersão ao estudar a relação entre duas variáveis numéricas?