Se queremos ver visivelmente a distribuição de dados contínuos, qual dentre o histograma e o pdf deve ser usado?
Quais são as diferenças, não em termos de fórmula, entre histograma e pdf?
Se queremos ver visivelmente a distribuição de dados contínuos, qual dentre o histograma e o pdf deve ser usado?
Quais são as diferenças, não em termos de fórmula, entre histograma e pdf?
Respostas:
Para esclarecer o ponto Dirks:
Digamos que seus dados sejam uma amostra de uma distribuição normal. Você pode construir o seguinte gráfico:
A linha vermelha é a estimativa da densidade empírica, a linha azul é o pdf teórico da distribuição normal subjacente. Observe que o histograma é expresso em densidades e não em frequências aqui. Isso é feito para fins de plotagem, em geral as frequências são usadas nos histogramas.
Então, para responder à sua pergunta: use a distribuição empírica (isto é, o histograma) se desejar descrever sua amostra e o pdf se desejar descrever a distribuição subjacente hipotética.
O gráfico é gerado pelo seguinte código em R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Um histograma é uma estimativa da idade pré-computador de uma densidade. Uma estimativa de densidade é uma alternativa.
Atualmente, usamos os dois, e há uma rica literatura sobre quais padrões se deve usar.
Um pdf, por outro lado, é uma expressão de forma fechada para uma determinada distribuição. Isso é diferente de descrever seu conjunto de dados com uma densidade ou histograma estimado .
Não existe uma regra rígida e rápida aqui. Se você conhece a densidade da sua população, um PDF é melhor. Por outro lado, geralmente lidamos com amostras e um histograma pode transmitir algumas informações que uma densidade estimada encobre. Por exemplo, Andrew Gelman destaca este ponto:
Um benefício importante de um histograma é que, como um gráfico de dados brutos, ele contém as sementes de sua própria avaliação de erro. Ou, dito de outra maneira, a irregularidade de um histograma ligeiramente suavizado executa um serviço útil ao indicar visualmente a variabilidade da amostra. É por isso que, se você observar os histogramas em meus livros e artigos publicados, eu quase sempre uso muitas caixas. Também quase nunca gosto das estimativas de densidade de kernel que as pessoas às vezes usam para exibir distribuições unidimensionais. Prefiro ver o histograma e saber onde estão os dados.
Histograma de frequência relativa ( discreto )
Histograma de densidade ( discreto )
Função Densidade de Probabilidade PDF ( contínuo )
Essas referências foram úteis :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Distribuição_da_probabilidade contínua do site acima
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html