Bolas e análise lixeiras no


23

mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2 pares de compartimentos separados. Esse argumento (não completamente formal) nos leva a esperar que a diferença entre e seja com alta probabilidade.XmaxXminΘ(mlogn/n)

Estou interessado na diferença entre e . O argumento descrito acima mostra que com alta probabilidade, mas o fator parece estranho . Existe algo conhecido sobre a distribuição de ?XmaxXsecmaxXmaxXsecmax=O(mlogn/n)lognXmaxXsecmax

De maneira mais geral, suponha que cada bola esteja associada a uma pontuação não negativa para cada posição, e estamos interessados ​​na pontuação total de cada posição após jogar m bolas. O cenário usual corresponde às pontuações do formulário (0,,0,1,0,,0) . Suponha que a distribuição de probabilidade das pontuações seja invariável sob a permutação das caixas (no cenário usual, isso corresponde ao fato de que todas as caixas são equivalentes). Dada a distribuição das pontuações, podemos usar o método do primeiro parágrafo para obter um bom limite entre XmaxXmin . O limite conterá um fator de lognque vem de um limite de união (através das probabilidades finais de uma variável normal). Esse fator pode ser reduzido se estivermos interessados ​​em delimitar ?XmaxXsecmax


Cada pontuação está em [0,1]?
Neal Young

Realmente não importa, você sempre pode escalá-lo para que fique em . [0,1]
Yuval Filmus

Respostas:


21

Resposta: .Θ(mnlogn)

Aplicando uma versão multidimensional do Teorema do Limite Central, obtemos que o vetor possui distribuição gaussiana assintoticamente multivariada com e Vamos assumir abaixo que é um vetor gaussiano (e não apenas aproximadamente um vetor gaussiano). Vamos adicionar uma variável aleatória gaussiana com variância a todos os ( é independente de todos os ). Ou seja, vamos V a r [ X i ] = m ( 1(X1,,Xn)Cov(Xi,Xj)=-m/n2. XZm/n2XiZ

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZ( Y 1 Y 2Y n ) = ( X 1 + Z X 2 + Z X n + Z ) . ( Y 1Xi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
Temos um vetor gaussiano . Agora, cada tem variação : e todos os são independentes: Y i m / n V um r [ Y i ] = V um r [ X i ] + 2 C O v ( X i , Z ) =(Y1,,Yn)Yim/nYi
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

Observe que . Portanto, nosso problema original é equivalente ao problema de encontrar . Vamos primeiro simplificar a análise do caso em que todos os têm variação .Y m a x - Y s e c - m a x Y i 1YiYj=XiXjYmaxYsecmaxYi1

Problema. Nós recebemos rv gaussiano independente com média e variância . Estime a expectativa de .γ 1 , ... , γ n μ 1 γ m um x - γ s e c - m um xnγ1,,γnμ1γmaxγsecmax

Resposta: .Θ(1logn)

Prova informal. Aqui está uma solução informal para esse problema (não é difícil torná-lo formal). Como a resposta não depende da média, assumimos que . Vamos , onde . Temos (para moderadamente grande ), μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

Observe que

  • Φ(γi) são distribuídos de maneira uniforme e independente em ,[0,1]

  • Φ(γmax) é o menor entre ,Φ(γi)

  • Φ(γsecmax) é o segundo menor entre .Φ(γi)

Portanto, está próximo de e está próximo de (não há concentração, mas se não usarmos ' não se preocupam com constantes, essas estimativas são boas o suficiente; na verdade, são muito boas se nos importamos com constantes - mas isso precisa de uma justificativa). Usando a fórmula para , obtemos Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

Portanto, é whp Observe que . Temos, γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

Entendemos que

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

O mesmo argumento continua quando temos pontuações arbitrárias. Isso mostra que

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
Obrigado! Lembrarei de tentar a aproximação gaussiana multivariada da próxima vez.
Yuval Filmus

5
Yury, você escreveu "Vamos adicionar um vetor gaussiano com variância a todos os . Temos um vetor gaussiano . Agora, cada tem variância todos os não correlacionado ... Observe que . " Você pode expandir essa parte? Ém / n 2 X i ( Y 1 ,Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=Zj ? Se os são dependentes e os são independentes (ou uniformemente iguais), como os podem ser independentes? (Parece um truque legal, mas eu não entendo.) Obrigado. XiZiYi
Neal Young

1
@NealYoung, sim, se tivermos variáveis com correlação pareada negativa e todas as covariâncias forem iguais , podemos adicionar uma única variável aleatória nova a todos os modo que as somas são independentes. Além disso, se as variáveis ​​tiverem correlação positiva e novamente todas as covariânciasC o v ( X iX1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj) forem iguais, podemos subtrair um único rv de todas elas para que todas as diferenças sejam independentes; mas agora não é independente de mas simZZXiZ=α(X1++Xn)para algum parâmetro de escala . α
Yury

1
Ah entendo. pelo menos algebricamente, tudo o que repousa é a independência emparelhada de Z e cada . muito legal. Xi
Suresh Venkat

1
Este argumento agora aparece (com atribuição) em um documento da EC'14 : dl.acm.org/citation.cfm?id=2602829 .
Yuval Filmus

13

Para sua primeira pergunta, acho que você pode mostrar que X_ está Observe que este é .XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

Compare sua experiência aleatória com a seguinte alternativa: Seja a carga máxima de qualquer um dos primeiros buckets. Seja a carga máxima de qualquer um dos últimos buckets.X1n/2X2n/2

Em consideração,é um limite superior em . Além disso, com probabilidade de pelo menos metade,X max|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmax . Portanto, falando grosso modo, é distribuído de forma semelhante a.XmaxXsecmax|X1X2|

Para estudar, observe que, com alta probabilidade bolas são lançadas nos primeiros compartimentos e da mesma forma para os últimos compartimentos. Então e|X1X2|m/2±O(m)n/2n/2X1X2 são distribuídos essencialmente como a carga máxima ao atirar bolas em bandejas.m=m/2±o(m)n=n/2

Essa distribuição é bem estudada e, felizmente para esse argumento, está fortemente concentrada em torno de sua média. Por exemplo, se , com alta probabilidade difere de sua expectativa em no máximo a quantidade exibida na parte superior desta resposta [ Thm. 1 ] (Nota: acho que esse limite superior é fraco, dada a resposta de Yuri.) Assim, com alta probabilidade emnlog3nX1X1X2 também diferem, no máximo, tanto assim, e assim e diferem por no máximo isso.XmaxXmaxsec

Por outro lado, para um limite inferior (um pouco mais fraco), se, para qualquer , diga, , então é pelo menos que (pelo limite da união ingênua) é pelo menos Eu acho que isso deve dar a você (por exemplo) a expectativa dePr [ | X 1 - X 2 | t ] 3 / 4 - (tPr[|X1X2|t]3/4Pr [ | X 1 - X 2 | t X / 4. X max - X sec-max 1 / 2 ) = 1Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
1(1/4)(1/2)=1/4.XmaxXsec-max dentro de um fator contant.

Olhando para Thm. 1, a diferença da expectativa é , e não o que você escreveu. Isso ainda é muito melhor que . O((m/n)loglogn)O((m/n)logn)
Yuval Filmus

Por Thm. 1 (seu terceiro caso), para qualquer , com probabilidade , o máximo em qualquer posição (m bolas em n caixas) é Pela minha matemática (usando ), o termo expande para um termo absoluto aditivo deO que estou fazendo errado? ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±εS(ε)1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
Neal Young

Ah - acho que você está certo. Subtraí dentro da raiz quadrada e foi assim que consegui minha figura.
Yuval Filmus
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.