Qual é a diferença entre gráficos de probabilidade, gráficos de PP e gráficos de QQ ao tentar analisar uma distribuição ajustada dos dados?
Qual é a diferença entre gráficos de probabilidade, gráficos de PP e gráficos de QQ ao tentar analisar uma distribuição ajustada dos dados?
Respostas:
Como @ vector07 observa , o gráfico de probabilidade é a categoria mais abstrata da qual os pp- plot e qq- plot são membros. Assim, discutirei a distinção entre os dois últimos. A melhor maneira de entender as diferenças é pensar em como elas são construídas e entender que você precisa reconhecer a diferença entre os quantis de uma distribuição e a proporção da distribuição pela qual você passou ao atingir um determinado quantil. Você pode ver o relacionamento entre eles plotando a função de distribuição cumulativa (CDF) de uma distribuição. Por exemplo, considere a distribuição normal padrão:
Vemos que aproximadamente 68% do eixo y (região entre linhas vermelhas) corresponde a 1/3 do eixo x (região entre linhas azuis). Isso significa que, quando usamos a proporção da distribuição pela qual passamos para avaliar a correspondência entre duas distribuições (ou seja, usamos um gráfico pp), teremos muita resolução no centro das distribuições, mas menos em as caudas. Por outro lado, quando usamos os quantis para avaliar a correspondência entre duas distribuições (isto é, usamos um gráfico qq), obteremos uma resolução muito boa nas caudas, mas menos no centro. (Como os analistas de dados geralmente estão mais preocupados com as caudas de uma distribuição, que terão mais efeito na inferência, por exemplo, gráficos qq são muito mais comuns que gráficos pp).
Para ver esses fatos em ação, analisarei a construção de um gráfico de pp e um gráfico de qq. (Também passo pela construção de um gráfico de qq verbalmente / mais devagar aqui: o gráfico de QQ não corresponde ao histograma .) Não sei se você usa R, mas espero que seja auto-explicativo:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Infelizmente, esses gráficos não são muito distintos, porque há poucos dados e estamos comparando um verdadeiro normal à distribuição teórica correta; portanto, não há nada de especial para ver no centro ou nas caudas da distribuição. Para demonstrar melhor essas diferenças, planto uma distribuição t (de cauda gorda) com 4 graus de liberdade e uma distribuição bimodal abaixo. As caudas gordas são muito mais distintas no gráfico qq, enquanto a bi-modalidade é mais distinta no gráfico pp.
Aqui está uma definição de v8doc.sas.com :
Um gráfico de PP compara a função empírica de distribuição cumulativa de um conjunto de dados com uma função teórica especificada de distribuição cumulativa F (·). Um gráfico QQ compara os quantis de uma distribuição de dados com os quantis de uma distribuição teórica padronizada de uma família especificada de distribuições.
No texto, eles também mencionam:
Referência :
SAS Institute Inc., SAS OnlineDoc®, Versão 8, Cary, NC: SAS Institute Inc., 1999