Existe um conceito especificamente para comparar distribuições, que deve ser mais conhecido: a distribuição relativa.
Y0 0, Y com funções de distribuição cumulativaF0 0, F e queremos compará-los, usando F0 0 como referência.
Definir
R = F0 0( Y)
A distribuição da variável aleatória
R é a distribuição relativa de
Ycom
Y0 0como referência. Note que nós temos isso
F0 0( Y0 0) tem sempre a distribuição uniforme (com variáveis aleatórias contínuas, se as variáveis aleatórias forem discretas, isso será aproximado).
Vamos ver um exemplo. O site http://www.math.hope.edu/swanson/data/cellphone.txt fornece dados sobre a duração da última ligação telefônica de estudantes do sexo masculino e feminino. Vamos expressar a distribuição da duração da ligação telefônica para estudantes do sexo masculino, tendo como referência as estudantes do sexo feminino.
Podemos ver imediatamente que os homens (nesta turma da faculdade ...) tendem a ter ligações telefônicas mais curtas que as mulheres ... e isso é expresso diretamente, de uma maneira muito direta. Nox são mostradas as proporções na distribuição das mulheres, e podemos ler que, por exemplo, durante o tempo T(seja o que for, seu valor não é mostrado), de modo que 20% das chamadas de mulheres foram menores (ou iguais) a isso, a densidade relativa dos homens nesse intervalo varia entre 1,3 e 1,4. Se aproximarmos (mentalmente do gráfico) a densidade relativa média nesse intervalo como 1,35, veremos que a proporção de homens nesse intervalo é cerca de 35% maior que a proporção de mulheres. Isso corresponde a 27% dos homens nesse intervalo.
Também podemos fazer o mesmo gráfico com intervalos de confiança pontuais em torno da curva de densidade relativa:
As amplas faixas de confiança nesse caso refletem o pequeno tamanho da amostra.
Há um livro sobre esse método: Handcock
O código R para o gráfico está aqui:
phone <- read.table(file="phone.txt", header=TRUE)
library(reldist)
men <- phone[, 1]
women <- phone[, 3]
reldist(men, women)
title("length of mens last phonecall with women as reference")
Para o último gráfico, mude para:
reldist(men, women, ci=TRUE)
title("length of mens last phonecall with women as reference\nwith pointwise confidence interval (95%)")
Observe que as parcelas são produzidas com o uso da estimativa da densidade do kernel, com o grau de suavidade escolhido via gcv (validação cruzada generalizada).
Mais alguns detalhes sobre a densidade relativa. DeixeiQ0 0 ser a função quantil correspondente a F0 0. Deixeir ser um quantil de R com yro valor correspondente na escala de medição original. Então a densidade relativa pode ser escrita como
g( r ) = f( Q0 0( r ) )f0 0( Q0 0( r ) )
ou na escala de medição original como
g( r ) = f( yr)f0 0( yr). Isso mostra que a densidade relativa pode ser interpretada como uma razão de densidades. Mas, na primeira forma, com argumento
r, é também uma densidade por direito próprio, integrando a uma ao longo do intervalo
( 0 , 1 ). Isso o torna um bom ponto de partida para inferência.
hist
; densidades suavizadasdensity
; Plotagens de QQqqplot
; parcelas de caule e folhas (um pouco antigas)stem
. Além disso, o teste de Kolmogorov-Smirnov pode ser um bom complementoks.test
.