Limite inferior para testar a proximidade na norma


11

Eu queria saber se havia algum limite inferior (em termos de complexidade da amostra) conhecido pelo seguinte problema:

Dado o acesso de amostra da Oracle a duas distribuições desconhecidas D1 , D2 em {1,,n} , teste (whp) se

  • D1=D2
  • d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] mostrou que as amostras eram suficientes, mas não encontrei nenhuma menção a um limite inferior?O(1ϵ4)

Acho que sempre se poderia mostrar um limite inferior Ω(1ϵ2) reduzindo a tarefa de distinguir uma moeda justa versus influenciada por ϵ nesse problema (simulando uma distribuição suportada em apenas dois e respondendo às consultas do testador de acordo com os lançamentos de moedas do iid), mas isso ainda deixa um espaço quadrático ...

(Outro ponto em que eu estaria interessado é um limite inferior na estimativa (até um aditivo ϵ ) dessa distância L2 - novamente, não encontrei nenhuma referência a esse resultado na literatura)

Obrigado pela ajuda,


Esse problema de promessa parece muito semelhante ao chamado diferença estatística de Sahai e Vadhan, que é um problema completo para a classe SZK (conhecimento estatístico zero); no entanto, eles usam a distância . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Edit: também eu acho que eles estão supondo que você tenha um circuito de computação as distribuições, não acessar o Oracle.)L1
usul

Oi, como mencionado em outro comentário, a diferença entre e norma é realmente crucial aqui - mais, no ther papel, eles montaram uma explícita (e não arbitrária) limiar (em uma das observações, eles explicam que esse limite precisa satisfazer alguma restrição específica); e deseja distinguir x (que está de alguma forma mais próximo da estimativa de teste / distância tolerante do que o "teste usual", onde você deseja testar vs. (mas para qualquer fixo )). L 1 τ = 1 / 3 d umaτ d 21 - τ d 2 = 0 d 2£ £L2L1τ=1/3d1τd21τd2=0d2ϵϵ
Clement C.

Respostas:


6

Parece que amostras - como usul mostrou abaixo - é suficiente para o teste, de modo que a complexidade da amostra é exatamente ; na verdade, verifica-se este número de amostras nos mesmo o suficiente para aprender até um aditivo wrt o norma.Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Vamos a função densidade empírica obtida por estiramento iid amostras e configuração Então que . O ms1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk's (para ) não são independentes, mas podemos escrever para que, para , e aplicando a desigualdade de Markov k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2εdoism3ϵ2 P{D - D2£}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Eu estava me referindo à resposta de usul começando com "Vou tentar reparar meu erro anterior, mostrando algo [...] oposto" - que está realmente acima deste. Eu não esperava isso :)) Quanto ao aprendizado limite superior, pode ser mostrado que o algoritmo mais ingênuo (ou seja, aquele que extrai amostras e gera a densidade empírica definida) produz uma distribuição que é, com probabilidade constante, perto de na distância . D ε D G 2m=O(1/ϵ2)D^ϵDL2
Clement C.

Acabei de editar minha resposta.
Clement C.

3

Tentarei reparar o erro anterior, mostrando algo oposto - que amostras são suficientes (o limite inferior de está quase apertado)! Veja o que você pensa ....1/ϵ2Θ~(1ϵ2)1/ϵ2

A intuição chave começa com duas observações. Primeiro, para que as distribuições tenham uma distância de , deve haver pontos com alta probabilidade ( ). Por exemplo, se tivéssemos pontos de probabilidade , teríamos . ε ohms ( ε 2 ) 1 / ε 3 ε 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Segundo, considere distribuições uniformes com uma distância de . Se tivéssemos pontos de probabilidade , cada um deles diferiria por e amostras seriam suficientes. Por outro lado, se tivéssemos pontos, cada um deles precisaria diferir por e novamente por amostras (um número constante por ponto) é suficiente. Portanto, podemos esperar que, entre os pontos de alta probabilidade mencionados anteriormente, sempre exista algum ponto diferente "suficiente" que desenhe o distinga. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algoritmo. Dado e um parâmetro de confiança , seja . Desenhe amostras de de cada distribuição. Seja o respectivo número superior e inferior de amostras para o ponto . Se houver algum ponto para o qual e , declare o distribuições diferentes. Caso contrário, declare-os da mesma forma.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) umi,biii[n]umiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Os limites de correção e confiança ( ) dependem do seguinte lema, que diz que todo o desvio na distância vem de pontos cujas probabilidades diferem por . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Afirmação. Suponha . Let. Deixe . Então ô i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ε doisD1D22ϵδi=|D1(i)D2(i)|Σi S k δ 2 i£2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Prova . Temos Vamos amarrar a segunda soma; desejamos maximizar sujeito a . Como a função é estritamente convexa e crescente, podemos aumentar o objetivo assumindo e aumentando por enquanto diminui por . Assim, o objetivo será maximizado com o maior número possível de termos em seus valores máximos, e o restante em i S k δ 2 i i S k δi2xx2δiδjδiγδjγ0 ϵ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. O valor máximo de cada termo é e há no máximo termos desse valor (já que eles somam no máximo ). Então 2kϵ2k 2iSkδ 2 i2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Reivindicação . Seja . Se , existe pelo menos um ponto com e .D 1 - D 2 2ε i [ n ] p i > ε doispi=max{D1(i),D2(i)}D1D22ϵi[n] δiϵpi>ϵ24δiϵpi2

Prova . Primeiro, todos os pontos em têm por definição (e não pode estar vazio para pela reivindicação anterior).p iδ i > ϵ 2Sk Skk>2piδi>ϵ2kSkk>2

Segundo, porque , temos ou, reorganizando, então a desigualdade vale por pelo menos um ponto em . Agora escolha . Σ i S k δ 2 i£ 2 ( 1ipi2iSk(δ 2 i -piϵ2(1

iSkδi2ϵ2(121k)iSkpi,
δ2ipiϵ2(1
iSk(δi2piϵ2(121k))0,
Skk=4
δi2piϵ2(121k)
Skk=4

Reivindicação (falsos positivos) . Se , nosso algoritmo os declara diferentes com probabilidade no máximo .e - Ω ( M )D1=D2eΩ(M)

Esboço . Considere dois casos: e . No primeiro caso, o número de amostras de não excederá em qualquer distribuição: O número médio de amostras é e um limite de cauda indica que com probabilidade , as amostras de não excedem sua média por um aditivo ; se formos cuidadosos em manter o valor no limite da cauda, ​​podemos unir o limite sobre eles, independentemente de quantos pontos houver (intuitivamente, o limite diminui exponencialmente no número de pontos possíveis).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

No caso , podemos usar um limite de Chernoff: Ele diz que, quando coletamos amostras e um ponto é desenhado com a probabilidade , a probabilidade de diferir da média por é no máximo . Aqui, deixe , para que a probabilidade seja limitada por .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Portanto, com probabilidade , (para ambas as distribuições), o número de amostras de está dentro de de sua média . Portanto, nosso teste não capta esses pontos (eles são muito próximos um do outro) e podemos unir o limite de todos os deles. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Reivindicação (falsos negativos) . Se , nosso algoritmo os declara idênticos com probabilidade no máximo .D1D22ϵϵ2eΩ(M)

Esboço . Há algum ponto com e . O mesmo limite de Chernoff que na reivindicação anterior diz que, com probabilidade , o número de amostras de difere de sua média em no máximo . Isso é para a distribuição (WLOG) que tem ; mas há uma probabilidade ainda menor do número de amostras de da distribuiçãoipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 diferindo de sua média por esse valor aditivo (como a média e a variação são menores).

Portanto, com alta probabilidade, o número de amostras de de cada distribuição está dentro de de sua média; mas suas probabilidades diferem em , portanto, seus meios diferem em ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Portanto, com alta probabilidade, para o ponto , o número de amostras difere em pelo menos . i#samples(1)X4

Para concluir os esboços, precisaríamos mostrar com mais rigor que, para grande o suficiente, o número de amostras de é próximo o suficiente para que, quando o algoritmo usa vez de , ele não altera nada (o que deve ser direto, deixando espaço de manobra nas constantes).Mi#samplesmean


Oi, Obrigado por isso - eu tenho algumas perguntas sobre o algoritmo e a análise (sobre alguns pontos que não tenho certeza de obter): supondo que eu só queira no final uma probabilidade constante de de sucesso, isso significa que constante, se eu entendi corretamente (a menos que eu não tenha entendido o que era)? Portanto, neste caso, voltando-se para : de acordo com o algoritmo, ele se torna - está correto? 2/3MMXΘ(log1ϵ)
Clement C.

@ClementC. Desculpe, eu não estava muito claro! A alegação é que, se amostras , a probabilidade de estar errado é , então, para uma probabilidade constante de estar errada, suas amostras . 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

OK, foi o que eu reuni. Examinarei a prova com isso em mente - obrigado novamente pelo tempo que você gastou nisso!
Clement C.

1

Você pode começar tentando resolver isso para o caso . Tenho certeza de que amostras serão necessárias e suficientes, nesse caso.n=2Θ(1/ϵ2)

É possível que você considere útil converter entre a distância e a distância (distância total da variação).L2L1

  • Sabe-se que, com uma amostra, se as distribuições são conhecidas, a distância total da variação caracteriza perfeitamente a vantagem com a qual podemos distinguir de . Assim, se a distância total da variação for grande e as distribuições forem conhecidas, é possível construir um teste correto com alta probabilidade; se a distância total da variação for pequena, não se pode. Não sei o que se pode dizer sobre o caso em que a distância total da variação é grande, mas as distribuições são desconhecidas.D1D2

  • Em seguida, você pode olhar para as distribuições de produtos, e . Usando a distância total de variação (distância ), parece não haver bons limites relacionados a . No entanto, ao usar a distância , acredito que existem boas estimativas de como uma função de . (Infelizmente, não consigo encontrar uma referência específica a essas estimativas / limites, por isso espero não estar me lembrando.) Também existem limites conhecidos que permitem estimar a distância em função da distância .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Portanto, uma abordagem que você pode tentar seria vincular , depois disso, vincular .||D1nD2n||2||D1nD2n||1

Não sei se isso levará a algum lugar bom ou não; é apenas uma ideia. Provavelmente, os autores do artigo que você cita já tentaram ou consideraram algo assim.

Possivelmente referências úteis:


Oi, obrigado pela sua resposta! No entanto, estou interessado em um limite inferior assintótico, quando . Em particular, a relação entre e normas envolve um fator - o que significa que eles são, de facto equivalente para constante, mas assintoticamente muito diferente; usar a L_1 como proxy não é uma opção, tanto quanto posso dizer (quanto ao teste de proximidade na distância , a complexidade exata é conhecida por [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Clement C.

0

EDIT: isso está incorreto! Veja a discussão nos comentários - vou apontar a falha abaixo.

Acho que podemos dizer que são necessários.1ϵ4

Defina . Seja a distribuição uniforme (probabilidade de cada ponto ) e seja diferente do uniforme por uma quantidade aditiva em cada ponto. Verifique se a distância é .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Portanto, temos que distinguir uma moeda justa de lados de uma moeda com lados de . Eu acho que isso deve ser pelo menos tão difícil quanto distinguir uma moeda justa com lados de uma moeda com lados , o que exigiria amostras. Edit: isto está incorreto! A moeda é polarizada de forma aditiva , mas é polarizada multiplicativamente por um fator constante. Como DW aponta, isso significa que um número constante de amostras por ponto distingue de .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Observe que é o mais longe possível para empurrar essa linha de argumento. Concretamente, suponha que tentamos aumentar para, digamos, . Na distribuição uniforme, cada ponto tem probabilidade . Mas em , precisamos que cada ponto varie de uniforme por . Isso não é possível desde .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Mais abstratamente, suponha que queremos que cada ponto varie de uniforme por . Então, o máximo que podemos definir como seria . Para obter uma distância de , precisamos satisfazer que a raiz quadrada da soma das distâncias é , então , então então , e obtemos .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Além disso, acho que o mesmo argumento diz que, se estivermos interessados ​​na distância com , exigiremos , portanto escolheríamos , portanto o número de amostras seria . Eu acho que isso faz sentido como um limite que é independente de . Ele se aproxima do infinito como . Se você estivesse tentando distinguir duas distribuições na distância de sem limite em , eu faria infinitamente grande e espalharia a diferença arbitrariamente fina, para que você nunca pudesse distingui-las (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnisto é, nenhum número fixo de amostras é suficiente para todos os ). Também se aproxima de como ; isso faz sentido como um limite porque, para a norma , podemos definir e deixar que cada ponto seja diferente por ; precisamos amostrar alguns pontos vezes para garantir que difere do uniforme, o que levará amostras de .n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Você realmente quer dizer que difere do uniforme em em cada ponto? Eu suspeito que seja um erro de digitação e você quis dizer . D2±1/ϵ2±ϵ2
DW

1
2. Não acredito que distinto de exija amostras. Parece-me que as amostras são suficientes. Explicação (intuição): suponha que reunamos amostras e conte quantas vezes cada valor possível ocorre. Se eles vieram de , cada um deve ocorrer 100 vezes (com std dev 10). Se eles vieram de , cada um deve ocorrer 200 vezes (std dev 14) para metade deles / 0 vezes (std dev 0) para a outra metade. Isso é fácil o suficiente para distinguir entre os dois, se você souber que está lidando com ou . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) você está certo! Fixo. (2) Como você diz, eu concordo, mas acho que com diferentes opções de constantes é mais difícil. Estou imaginando algo assim: , então coloca a probabilidade em cada ponto. Então difere em em cada ponto (verifique se a distância é ), para colocar a probabilidade ou em cada ponto. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Acho que amostras ainda são suficientes. Reúna amostras e conte quantas vezes cada valor possível ocorre. Para , cada um deve ocorrer 1.000.000 de vezes (std dev ). Para , cada um deve ocorrer 900.000 vezes (std dev ) ou 1.100.000 vezes (std dev ). Isso é fácil o suficiente para distinguir entre os dois, se sabemos que estamos lidando com ou , porque a diferença entre 1.000.000 e 1.100.000 são 100 desvios padrão, ou seja, enormes. m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@ DW eu pensei mais sobre isso - você está certo. Se suas médias diferem por um fator multiplicativo constante, um número constante de amostras por ponto deve distingui-las. É o fator multiplicativo e não aditivo que importa. Essa abordagem fornece apenas um limite inferior de . 1/ϵ2
usul
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.