Tentarei reparar o erro anterior, mostrando algo oposto - que amostras são suficientes (o limite inferior de está quase apertado)! Veja o que você pensa ....1/ϵ2Θ~(1ϵ2)1/ϵ2
A intuição chave começa com duas observações. Primeiro, para que as distribuições tenham uma distância de , deve haver pontos com alta probabilidade ( ). Por exemplo, se tivéssemos pontos de probabilidade , teríamos . ε ohms ( ε 2 ) 1 / ε 3 ε 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Segundo, considere distribuições uniformes com uma distância de . Se tivéssemos pontos de probabilidade , cada um deles diferiria por e amostras seriam suficientes. Por outro lado, se tivéssemos pontos, cada um deles precisaria diferir por e novamente por amostras (um número constante por ponto) é suficiente. Portanto, podemos esperar que, entre os pontos de alta probabilidade mencionados anteriormente, sempre exista algum ponto diferente "suficiente" que desenhe o distinga. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algoritmo. Dado e um parâmetro de confiança , seja . Desenhe amostras de de cada distribuição. Seja o respectivo número superior e inferior de amostras para o ponto . Se houver algum ponto para o qual e , declare o distribuições diferentes. Caso contrário, declare-os da mesma forma.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) umi,biii∈[n]umi≥XXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
Os limites de correção e confiança ( ) dependem do seguinte lema, que diz que todo o desvio na distância vem de pontos cujas probabilidades diferem por . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Afirmação. Suponha . Let. Deixe . Então
ô i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ε dois∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|Σi∈ S k δ 2 i ≥£2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Prova . Temos
Vamos amarrar a segunda soma; desejamos maximizar sujeito a . Como a função é estritamente convexa e crescente, podemos aumentar o objetivo assumindo e aumentando por enquanto diminui por . Assim, o objetivo será maximizado com o maior número possível de termos em seus valores máximos, e o restante em∑ i ∉ S k δ 2 i ∑ i ∉ S k δi≤2x↦x2δi≥δjδiγδjγ0 ϵ 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. O valor máximo de cada termo é e há no máximo termos desse valor (já que eles somam no máximo ). Então
2kϵ2k 2∑i∉Skδ 2 i ≤2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Reivindicação . Seja . Se , existe pelo menos um ponto com e .‖ D 1 - D 2 ‖ 2 ≥ ε i ∈ [ n ] p i > ε doispi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n] δi≥ϵ √pi>ϵ24δi≥ϵpi√2
Prova . Primeiro, todos os pontos em têm por definição (e não pode estar vazio para pela reivindicação anterior).p i ≥ δ i > ϵ 2Sk Skk>2pi≥δi>ϵ2kSkk>2
Segundo, porque , temos
ou, reorganizando,
então a desigualdade
vale por pelo menos um ponto em . Agora escolha . Σ i ∈ S k δ 2 i ≥ £ 2 ( 1∑ipi≤2∑i∈Sk(δ 2 i -piϵ2(1
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
δ2i≥piϵ2(1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
Skk=4◻δ2i≥piϵ2(12−1k)
Skk=4□
Reivindicação (falsos positivos) . Se , nosso algoritmo os declara diferentes com probabilidade no máximo .e - Ω ( M )D1=D2e−Ω(M)
Esboço . Considere dois casos: e . No primeiro caso, o número de amostras de não excederá em qualquer distribuição: O número médio de amostras é e um limite de cauda indica que com probabilidade , as amostras de não excedem sua média por um aditivo ; se formos cuidadosos em manter o valor no limite da cauda, podemos unir o limite sobre eles, independentemente de quantos pontos houver (intuitivamente, o limite diminui exponencialmente no número de pontos possíveis).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
No caso , podemos usar um limite de Chernoff: Ele diz que, quando coletamos amostras e um ponto é desenhado com a probabilidade , a probabilidade de diferir da média por é no máximo . Aqui, deixe , para que a probabilidade seja limitada por .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Portanto, com probabilidade , (para ambas as distribuições), o número de amostras de está dentro de de sua média . Portanto, nosso teste não capta esses pontos (eles são muito próximos um do outro) e podemos unir o limite de todos os deles. 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Reivindicação (falsos negativos) . Se , nosso algoritmo os declara idênticos com probabilidade no máximo .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Esboço . Há algum ponto com e . O mesmo limite de Chernoff que na reivindicação anterior diz que, com probabilidade , o número de amostras de difere de sua média em no máximo . Isso é para a distribuição (WLOG) que tem ; mas há uma probabilidade ainda menor do número de amostras de da distribuiçãoipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 diferindo de sua média por esse valor aditivo (como a média e a variação são menores).
Portanto, com alta probabilidade, o número de amostras de de cada distribuição está dentro de de sua média; mas suas probabilidades diferem em , portanto, seus meios diferem em
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Portanto, com alta probabilidade, para o ponto , o número de amostras difere em pelo menos . i#samples(1)−−−−−−−−−−−√X√4□
Para concluir os esboços, precisaríamos mostrar com mais rigor que, para grande o suficiente, o número de amostras de é próximo o suficiente para que, quando o algoritmo usa vez de , ele não altera nada (o que deve ser direto, deixando espaço de manobra nas constantes).Mi#samples−−−−−−−−√mean−−−−−√