Representação gráfica de pequenas amostras

13

Eu tenho um pequeno conjunto de dados de 14 vezes separadas para concluir uma tarefa. No entanto, estou tendo dificuldade em encontrar um gráfico apropriado para usar no gráfico dos dados. Se a amostra fosse maior, eu usaria um gráfico de caixa ou histograma, mas não tenho certeza se seria apropriado usar neste caso quando a amostra é muito pequena.

Atualização: Os horários são 5.2,3.9,5.6,4.2,3,8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2

data-visualization descriptive-statistics small-sample

— Eamonn
fonte

4

Nada supera mostrar os dados reais com os quais você se importa como um exemplo concreto para incentivar as pessoas a publicar soluções diferentes. Sugiro, com antecedência, pontos ou tira e parcelas quantílicas com a caixa sobreposta.

— Nick Cox

16

Penso que o princípio cardinal aqui é que você pode e deve mostrar todos os valores individuais. Mesmo que o detalhe não seja obviamente interessante ou útil, não há razão para não mostrá-lo ou obrigar o leitor a decodificar (digamos) um histograma no qual as barras possam representar apenas um ou dois valores.

Eu ofereço aqui um pequeno composto. O canto superior esquerdo é um gráfico de pontos ou faixas (pelo menos vinte outros nomes foram usados para a mesma idéia) apresentados horizontalmente e, no canto superior direito, a mesma idéia apresentada verticalmente. Instâncias do mesmo valor são correspondidas pelo empilhamento.

No fundo, há um gráfico de caixa quantil, no sentido de Parzen, em que a escala horizontal tácita é probabilidade cumulativa (posição de plotagem, em um jargão comum) e a caixa mediana e quartis convencional pode ser desenhada de tal forma que (em princípio) metade os valores estão dentro da caixa, como sempre anunciados, e metade dos valores fora. A linha horizontal extra aqui representa a média. Algumas pessoas adicionam meios aos gráficos da caixa como um símbolo extra de ponto ou marcador; Acho que isso pode colidir com a exibição dos próprios dados e prefiro uma linha extra. Se a linha da mediana e a linha da média parecerem coincidir, você precisará pensar no que fazer. Quase sempre a média e a mediana são discernivelmente diferentes.

Pode-se argumentar que é padrão tornar explícitas as unidades de medida no gráfico, mas não vejo o que são.

(Eu deliberadamente coloquei um ponto extra aqui, que é que os gráficos podem ser muito pequenos, mas ainda informativos. Na prática, eu não os tornaria tão pequenos assim.)

EDITAR:

Referências cruzadas adicionadas às plotagens de caixas quantílicas amplamente no sentido de Parzen (outras referências no segundo abaixo; existem outros usos de "plotagens de caixas quantílicas")

Como posso medir a diferença entre dados não paramétricos com muitos zeros?

Como usar boxplots para encontrar o ponto em que os valores têm maior probabilidade de vir de diferentes condições?

Como visualizar o teste t independente de duas amostras?

Como obtenho qual experimento está melhor usando o Teste U de Mann-Whitney?

Shera, DM 1991. Alguns usos de gráficos quantílicos para melhorar a apresentação dos dados. Ciência da Computação e Estatística 23: 50-53.

Militký, J. e M. Meloun. 1993. Algumas ajudas gráficas para análise de dados exploratória univariada. Analytica Chimica Acta 277: 215-221.

Meloun, M. e J. Militký. 1994. Tratamento de dados assistido por computador em quimiometria analítica. I. Análise exploratória de dados univariados. Chemical Papers 48: 151-157.

EDIT 2:

O ponto principal desses tópicos não é apenas responder à pergunta imediata, mas abordar questões muito semelhantes que possam interessar a outros.

Alguns outros desenhos gráficos em outras respostas aqui mostram identificadores, agnosticamente rotulados 1 ... 14 na ausência de outros detalhes. Supondo que esses e outros identificadores fossem úteis na interpretação, um design simples para mostrá-los é um gráfico de pontos (Cleveland). Aqui estão duas dentre várias possibilidades, nas quais a ordem do identificador é respeitada literalmente (esquerda) e na qual os valores são classificados (direita). Há muito espaço para etiquetas mais longas, se necessário.

Uma vantagem desse design em relação aos gráficos de barras é que o eixo de resposta ou resultado pode começar com um valor diferente de zero se isso parecer uma escolha melhor.

Girar os gráficos para que o eixo de resposta seja vertical também pode ser facilmente imaginado.

— Nick Cox
fonte

(+1) Às vezes, vi o gráfico de pontos ou tiras, principalmente se orientado verticalmente, com os pontos "empilhados" alinhados centralmente, em vez de alinhados à esquerda (ou seja, se houvesse três pontos empilhados, o meio estaria alinhado com o pontos não empilhados). Isso fornece uma linha de simetria que é esteticamente agradável, mas não tenho certeza de quão benéfico é praticamente. Talvez facilite a sobreposição de uma caixa. Isso tem um nome separado, sabia? E houve algum conselho para evitá-lo / adotá-lo?

— Silverfish

1

Além disso, há alguma chance de você dar uma referência para Parzen? Eu sempre gostei dessas tramas, mas nunca li uma referência adequada para elas.

— Silverfish 17/02

As variantes do @Silverfish Centered (centralizadas) são certamente populares e frequentemente discutidas. Os pequenos problemas parecem ser um desejo de simetria, como você mencionou, em comparação com um design que se assemelha ao estilo de histograma, que eu prefiro um pouco, mas é uma questão de gosto e circunstância. Adicionei referências cruzadas e, por sua vez, gostaria de receber outras pessoas.

— Nick Cox

3

@Nick Cox já deu bons exemplos, duas outras opções que utilizo com certa frequência são o gráfico de caixas com pontos sobrepostos ou tremendo levemente,

Com código R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDIT: Você também pode usar uma trama de violino, se desejar

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

— aeongrail
fonte

1

Muito obrigado pela resposta. Eu relutava em usar gráficos de caixa em minhas análises originalmente devido ao tamanho da amostra. Mas, depois de analisar diferentes livros, parece que o tamanho da minha amostra é suficiente.

— Eamonn

1

Sua pergunta me lembrou a técnica descrita nesta postagem do blog . É sobre a visualização de eventos discretos.

O truque principal é traçar the time before an eventx the time after an event.

Seus dados visualizados [1]

Isso pode ser por acaso, mas a parte superior da área central não contém dados. Portanto, há alguma estrutura visível.

O Rcódigo rápido e sujo .

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

— Harald Thomson
fonte

OP disse 14 vezes separadas. Eu li que isso implica que estas não são uma série. Se eles são uma série, sua ideia é certamente pertinente.

— Nick Cox

Você provavelmente está certo. No entanto, mesmo se eles são não uma série, o gráfico que mostram as dependências entre os tempos. Obviamente, os rótulos dos eixos estão errados.

— Harald Thomson

2

Somente o OP pode esclarecer exatamente quais são os dados, mas acho que esse gráfico não ganha de qualquer maneira. Se os dados tiverem tempos separados, o gráfico não fará sentido, a menos que haja um significado na ordem em que os valores são fornecidos.

— Nick Cox

fyi textaceita argumentos vetoriais - text(x, y, 1:12)deve funcionar.

— 18716 MichaelChirico

1

Outra idéia, já que você está usando o tempo.

Um gráfico de pista de corrida - um gráfico de barras com coordenadas polares - produz o mesmo efeito que um cronômetro:

Idealmente, os rótulos de observação seriam sobrepostos nas barras ou pelo menos na outra extremidade. No momento, o espectador tem o esforço extra de acompanhar qual observação é qual (para cima / para baixo) ao fazer comparações.

— neerajt
fonte

2

Eu tenho que considerar isso como uma técnica gráfica excêntrica, na verdade para ser sincera, totalmente perversa. O olho não vê nem mesmo o comprimento do arco, mas uma área a ser decodificada como tal, mas o cérebro precisa intervir e sublinhar que apenas o ângulo de rotação é informativo. É um trabalho árduo até ver exatamente quais valores são menores ou iguais a um ou outro, o que é imediato em qualquer estilo de gráfico aceitável.

— Nick Cox

A única vantagem que posso ver para esse design, a menos que a classificação seja para um design incomum, é que os identificadores de 1 a 14 são imediatos nesse design. Eu peguei esse ponto em uma edição da minha própria resposta.

— Nick Cox