Sob a hipótese nula de que as distribuições são iguais e as duas amostras são obtidas aleatoriamente e independentemente da distribuição comum, podemos calcular os tamanhos de todos os testes (determinísticos) que podem ser feitos comparando-se um valor de letra a outro . Alguns desses testes parecem ter poder razoável para detectar diferenças nas distribuições.5 × 5
Análise
A definição original do resumo de letras de qualquer lote ordenado de números é a seguinte [Tukey EDA 1977]:5x1≤ x2≤ ⋯ ≤ xn
Para qualquer número in defina{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , … , ( n - 1 + n ) / 2 } x m = ( x i + x i + 1 ) / 2.m = ( i + ( i + 1 ) ) / 2{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , … , ( n - 1 + n ) / 2 }xm= ( xEu+ xi + 1) / 2.
Seja .Eu¯= n + 1 - i
Deixe eh = ( ⌊ m ⌋ + 1 ) / 2.m=(n+1)/2h=(⌊m⌋+1)/2.
O resumo de letras é o conjunto Seus elementos são conhecidos como dobradiça mínima, inferior, mediana, dobradiça superior e máxima, respectivamente.{ X - = x 1 , H - = x h , M = x m , H + = x ˉ h , X + = x n } .5{X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}.
Por exemplo, no lote de dados que pode calcular que , , e , de onden = 12, m = 13 / 2 h = 7 / 2(−3,1,1,2,3,5,5,5,7,13,21)n=12m=13/2h=7/2
X-H-MH+X+= - 3 ,= x7 / 2= ( x3+ x4) / 2 = ( 1 + 2 ) / 2 = 3 / 2 ,= x13 / 2= ( x6+ x7) / 2 = ( 5 + 5 ) / 2 = 5 ,= x7 / 2¯¯¯¯¯¯¯¯= x19 de / 2= ( x9+ x10 ) / 2 = ( 5 + 7 ) / 2 = 6 ,= x12= 21
As dobradiças estão próximas (mas geralmente não são exatamente as mesmas) dos quartis. Se quartis forem usados, observe que, em geral, eles serão meios aritméticos ponderados de duas estatísticas da ordem e, portanto, estarão dentro de um dos intervalos onde possa ser determinado a partir de e o algoritmo usado para calcular os quartis. Em geral, quando está em um intervalo , escreverei vagamente para me referir a uma média ponderada de e .i n q [ i , i + 1 ] x q x i x i + 1[ xEu, xi + 1]Eunq[ i , i + 1 ]xqxEuxi + 1
Com dois lotes de dados e existem dois resumos separados de cinco letras. Podemos testar a hipótese nula de que ambos são amostras aleatórias iid de uma distribuição comum comparando um dos -letters com um dos -letters . Por exemplo, podemos comparar a dobradiça superior de com a dobradiça inferior de para ver se é significativamente menor que . Isso leva a uma pergunta definitiva: como calcular essa chance,( y j , j = 1 , … , m ) , F x x q y y r x y x y( xEu, i = 1 , … , n )( yj, j = 1 , … , m ) ,Fxxqyyrxyxy
PrF( xq< yr) .
Para fracionada e isso não é possível sem saber . No entanto, como e então a fortiorir F x q ≤ x ⌈ q ⌉ y ⌊ r ⌋ ≤ y r ,qrFxq≤ x⌈ q⌉y⌊ r ⌋≤ yr,
PrF( xq< yr) ≤ PrF(x⌈ q⌉<y⌊ r ⌋) .
Dessa forma, podemos obter limites superiores universais (independentes de ) nas probabilidades desejadas calculando a probabilidade à direita, que compara as estatísticas de ordens individuais. A questão geral à nossa frente éF
Qual é a chance de o mais alto de valores ser menor que o mais alto dos valores extraídos de uma distribuição comum? n r th mqºnrºm
Mesmo isso não tem uma resposta universal, a menos que descartemos a possibilidade de que a probabilidade esteja muito concentrada nos valores individuais: em outras palavras, precisamos assumir que laços não são possíveis. Isso significa que deve ser uma distribuição contínua. Embora seja uma suposição, é fraca e não é paramétrica.F
Solução
A distribuição não desempenha nenhum papel no cálculo, pois, ao reexprimir todos os valores por meio da transformação de probabilidade , obtemos novos lotesFFF
X( F)= F( x1) ≤ F( x2) ≤ ⋯ ≤ F( xn)
e
Y( F)= F( y1) ≤ F(y2) ≤ ⋯≤ F(ym) .
Além disso, essa é monotônica e crescente: preserva a ordem e, ao fazê-lo, preserva o evento Como é contínuo, esses novos lotes são extraídos de uma distribuição Uniforme . Sob essa distribuição - e eliminando o agora supérfluo " " da notação - descobrimos facilmente que tem uma Beta = Beta :F [ 0 , 1 ] F x q ( q , n + 1 - q ) ( q , ˉ q )xq< yr.F[ 0 , 1 ]Fxq( q, n + 1 - q)( q, q¯)
Pr ( xq≤ x ) = n !( n - q) ! ( q- 1 ) !∫x0 0tq- 1(1−t)n−qdt.
Da mesma forma, a distribuição de é Beta . Ao realizar a dupla integração na região , podemos obter a probabilidade desejada, ( r , m + 1 - r ) x q < y ryr( r , m + 1 - r )xq< yr
Pr ( xq< yr) = Γ ( m + 1 ) Γ ( n + 1 ) Γ ( q+ r )3F~2( q, q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
Como todos os valores são integrais, todos os valores são realmente apenas fatoriais: para integral
A função pouco conhecida é uma função hipergeométrica regularizada . Nesse caso, pode ser calculado como uma soma alternada bastante simples do comprimento , normalizada por alguns fatoriais:Γ Γ ( k ) = ( k - 1 ) ! = ( K - 1 ) ( k - 2 ) ⋯ ( 2 ) ( 1 ) k ≥ 0. 3 ~ F 2 N - q + 1n,m,q,rΓΓ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1)k≥0.3F~2n−q+1
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
Isso reduziu o cálculo da probabilidade a nada mais complicado do que adição, subtração, multiplicação e divisão. O esforço computacional é escalado como Explorando a simetriaO((n−q)2).
Pr(xq<yr)=1−Pr(yr<xq)
o novo cálculo é escalado como permitindo escolher a mais fácil das duas somas, se desejarmos. Porém, isso raramente será necessário, porque os resumos de letras tendem a ser usados apenas para pequenos lotes, raramente excedendo5 n , m ≈ 300.O((m−r)2),5n,m≈300.
Inscrição
Suponhamos que os dois lotes têm tamanhos e . As estatísticas relevantes de pedidos para e são e respectivamente. Aqui está uma tabela com as chances de com indexar as linhas indexar as colunas:m = 12 x y 1 , 3 , 5 , 7 , 8 1 , 3 , 6 , 9 , 12 , x q < y r q rn=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
Uma simulação de 10.000 pares de amostras iid de uma distribuição normal padrão deu resultados próximos a eles.
Para construir um teste unilateral no tamanho como para determinar se o lote é significativamente menor que o lote , procure valores nesta tabela próximos ou logo abaixo de . As boas escolhas são em onde a chance é em com uma chance de e em com uma chance de Qual deles usar depende de seus pensamentos sobre a hipótese alternativa. Por exemplo, o teste compara a dobradiça inferior de com o menor valor deα = 5 % , x y α ( q , r ) = ( 3 , 1 ) , 0,0491 , ( 5 , 3 ) 0,0521 ( 7 , 6 ) 0,0542. ( 3 , 1 ) x y y ( 7 , 6 ) x y y x x yα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0,0542.( 3 , 1 )xy e encontra uma diferença significativa quando a dobradiça inferior é a menor. Este teste é sensível a um valor extremo de ; se houver alguma preocupação com dados externos, esse pode ser um teste arriscado. Por outro lado, o teste compara a dobradiça superior de com a mediana de . Este é muito robusto para valores extremos no lote e moderadamente robusto para valores extremos em . No entanto, ele compara valores médios de a valores médios de . Embora essa seja provavelmente uma boa comparação a ser feita, ela não detectará diferenças nas distribuições que ocorrem apenas nas duas caudas.y( 7 , 6 )xyyxxy
Ser capaz de calcular analiticamente esses valores críticos ajuda na seleção de um teste. Depois que um (ou vários) testes são identificados, seu poder de detectar alterações é provavelmente melhor avaliado através de simulação. O poder dependerá fortemente de como as distribuições diferem. Para entender se esses testes têm algum poder, realizei o teste com o extraído de uma distribuição Normal : isto é, sua mediana foi deslocada por um desvio padrão. Em uma simulação, o teste foi significativo em do tempo: é um poder apreciável para conjuntos de dados tão pequenos.y j ( 1 , 1 ) 54,4 %( 5 , 3 )yj( 1 , 1 )54,4 %
Muito mais pode ser dito, mas tudo isso é rotina sobre a realização de testes nos dois lados, como avaliar o tamanho dos efeitos e assim por diante. O ponto principal foi demonstrado: dados os resumos de letras (e tamanhos) de dois lotes de dados, é possível construir testes não paramétricos razoavelmente poderosos para detectar diferenças em suas populações subjacentes5 e, em muitos casos, podemos até ter vários opções de teste para escolher. A teoria desenvolvida aqui tem uma aplicação mais ampla na comparação de duas populações por meio de estatísticas de ordem adequadamente selecionadas de suas amostras (não apenas aquelas que se aproximam dos resumos das cartas).
Esses resultados têm outras aplicações úteis. Por exemplo, um boxplot é uma representação gráfica de um resumo de letras. Assim, juntamente com o conhecimento do tamanho da amostra mostrado por um boxplot, disponibilizamos vários testes simples (com base na comparação de partes de uma caixa e bigode com outro) para avaliar a significância das diferenças visualmente aparentes nessas parcelas.5