Compreensão concreta da diferença entre definições de PP e BPP

9

Estou confuso sobre como PP e BPP são definidos. Vamos supor $\chi$ é a função característica de uma linguagem $\mathcal{L}$ . M ser a máquina de Turing probabilística. As definições a seguir estão corretas:
$BPP =\{\mathcal{L} :Pr[\chi(x) \ne M(x)] \geq \frac{1}{2} + \epsilon \quad \forall x \in \mathcal{L},\ \epsilon > 0 \}$
$PP =\{\mathcal{L} :Pr[\chi(x) \ne M(x)] > \frac{1}{2} \}$

Se a definição estiver incorreta, tente fazer alterações mínimas para corrigi-las (por exemplo, não forneça outra definição equivalente que use a máquina de contar ou algum modelo modificado). Não consigo distinguir adequadamente as condições de probabilidade em ambas as definições.

Alguns exemplos concretos com uma visão clara dos pontos sutis seriam muito úteis.

— DurgaDatta
fonte

10

Isso parece correto para mim. A diferença entre BPP e do PP é que para BPP a probabilidade tem de ser maior do que por uma constante , enquanto para o PP que poderia ser . Portanto, para problemas de BPP, você pode fazer amplificação de probabilidade com um pequeno número de repetições, enquanto que para problemas gerais de PP, não é possível. $1/2$ $1/2+ 1/2^n$

— adrianN
fonte

12

A resposta de Vor fornece a definição padrão. Deixe-me tentar explicar a diferença um pouco mais intuitivamente.

Seja um algoritmo de tempo polinomial probabilístico de erro limitado para uma linguagem que responda corretamente com probabilidade pelo menos $M$ $L$ . Seja $p\geq\frac{1}{2}+\delta$ $x$ a entrada o tamanho da entrada. $n$

O que distingue uma arbitrária algoritmo de um algoritmo é a diferença positiva entre a probabilidade de aceitar e a probabilidade de aceitação . $\mathsf{PP}$ $\mathsf{BPP}$ $x\in L$ $x\notin L$ O essencial de é que a diferença seja pelo menos . Vou tentar explicar por que essa distinção é significativa e nos permite considerar como algoritmos eficientes (mesmo conjecturados como iguais a $\mathsf{BPP}$ $n^{-O(1)}$ $\mathsf{BPP}$ $\mathsf{P}$ ) enquanto é considerado ineficiente (na verdade, contém ). Tudo isso vem dessa lacuna. $\mathsf{PP}$ $\mathsf{PP}$ $\mathsf{NP}$

Vamos começar olhando para mais cuidado. $\mathsf{PP}$

Observe que, se um algoritmo usar no máximo bits aleatórios durante sua execução e a probabilidade de erro for menor que , a probabilidade de erro será realmente , não haverá escolha de bits aleatórios que farão o algoritmo responda incorretamente. $r(n)$ $2^{-r(n)}$ $0$

Além disso, um algoritmo com tempo de execução não pode usar mais que bits aleatórios, portanto, se o erro de um algoritmo probabilístico com pior tempo de execução $t(n)$ $t(n)$ for melhor que $t(n)$

Com um argumento semelhante, podemos mostrar que o caso em que a diferença entre a probabilidade de aceitar um e a probabilidade de aceitar um é muito pequena é semelhante ao caso em que não temos quase nenhuma diferença, como em caso $x\in L$ $x\notin L$ $\mathsf{PP}$

Vamos agora avançar para . $\mathsf{BPP}$

Em algoritmos probabilísticos, podemos aumentar a probabilidade de responder corretamente. Digamos que desejamos aumentar a probabilidade de correção para para, digamos, probabilidade de erro (erro exponencialmente pequeno). $1-\epsilon$ $\epsilon=2^{-n}$

A idéia é simples: execute várias vezes e pegue a resposta da maioria. $M$

Quantas vezes devemos executar para obter a probabilidade de erro no máximo ? vezes. A prova é dada na parte inferior desta resposta. $M$ $\epsilon$ $\Theta(\delta^{-1} \lg \epsilon)$

Agora, vamos considerar que os algoritmos que estamos discutindo precisam ter tempo polinomial. Isso significa que não podemos executar mais do que polinomialmente muitas vezes. Em outras palavras, , ou mais simplesmente $M$ $\Theta(\delta^{-1} \ln \epsilon) = n^{O(1)}$

δ^{- 1} \lg ϵ = n^{O (1)}

$\delta^{-1} \lg \epsilon = n^{O(1)}$

Essa relação categoriza os algoritmos probabilísticos de erro limitado em classes, dependendo de sua probabilidade de erro. Não existe diferença entre a probabilidade de erro ser sendo ou uma constante positiva (isto é, não muda com ) ou $\epsilon$ $2^{-n}$ $n$ . Podemos passar de um desses para os outros enquanto permanecemos dentro do tempo polinomial. $\frac{1}{2}-n^{O(1)}$

No entanto, se é muito pequeno, digamos, , , ou mesmo , então não temos uma maneira de aumentar a probabilidade de correção e reduzindo a probabilidade de erro suficientemente para entrar . $\delta$ $0$ $2^{-n}$ $n^{-\omega(1)}$ $\mathsf{BPP}$

O ponto principal aqui é que, em , podemos reduzir eficientemente a probabilidade de erro exponencialmente, para termos quase certeza das respostas e é isso que nos leva a considerar essa classe de algoritmos como algoritmos eficientes. A probabilidade de erro pode ser reduzida tanto que uma falha de hardware é mais provável ou até um meteoro que cai no computador é mais provável do que cometer um erro pelo algoritmo probabilístico. $\mathsf{BPP}$

Isso não é verdade para , não conhecemos nenhuma maneira de reduzir a probabilidade de erro e ficamos quase como se estivéssemos respondendo jogando uma moeda para obter a resposta (não somos completamente, as probabilidades não são metade e metade, mas está muito próximo dessa situação). $\mathsf{PP}$

Esta secção fornece a prova de que a obtenção de probabilidade de erro quando começamos com um algoritmo com gap $\epsilon$ devemos executarvezes. $(\frac{1}{2}-\delta,\frac{1}{2}+\delta)$ $M$ $\Theta(\delta^{-1} \lg \epsilon)$

Seja o algoritmo que executa por vezes e depois responde de acordo com a resposta da maioria. Por uma questão de simplicidade, vamos supor que seja ímpar para que não tenhamos laços. $N_k$ $M$ $k$ $k$

Considere o caso em que . O caso é semelhante. Então $x \in L$ $x \notin L$ Para analisar a probabilidade de correção de, precisamos estimar a probabilidade que a maioria dasexecuções aceita.

P r {M (x) accepts} = p \geq \frac{1}{2} + δ

$\mathsf{Pr}\{M(x) \text{ accepts}\} = p \geq \frac{1}{2} + \delta$

N_{k}

$N_k$

k

$k$

Deixe- ser 1 se o th prazo aceita e ser se ele rejeita. Observe que cada execução é independente das outras, pois elas usam bits aleatórios independentes. Assim, s são variáveis aleatórias booleanas independentes, onde $X_i$ $i$ $0$ $X_i$

E [X_{i}] = P r {X_{i} = 1} = P r {M (x) accepts} = p \geq \frac{1}{2} + δ

$\mathbb{E}[X_i] = \mathsf{Pr}\{X_i=1\} = \mathsf{Pr}\{M(x)\text{ accepts}\} = p \geq \frac{1}{2}+\delta$

Seja . Precisamos estimar a probabilidade que a maioria aceita, ou seja, a probabilidade de que $Y = \Sigma_{i=1}^k X_i$ . $Y\geq\frac{k}{2}$

P r {N_{k} (x) accepts} = P r {Y \geq \frac{k}{2}}

$\mathsf{Pr}\{N_k(x) \text{ accepts}\} = \mathsf{Pr}\{Y \geq \frac{k}{2}\}$

Como fazer isso? Podemos usar o limite de Chernoff, que indica a concentração de probabilidade próxima ao valor esperado. Para qualquer variável aleatória com valor esperado , temos $Z$ $\mu$

P r {| Z - μ | > α μ} < e^{\frac{α^{2}}{4} μ}

$\mathsf{Pr}\{|Z-\mu| > \alpha\mu\} < e^{\frac{\alpha^2}{4}\mu}$

o que diz que a probabilidade de que esteja longe do valor esperado diminui exponencialmente à medida que aumenta. Vamos usá-lo para limitar a probabilidade de $Z$ $\alpha\mu$ $\mu$ $\alpha$ . $Y < \frac{k}{2}$

E [Y] = E [Σ_{i = 1}^{k} X_{i}] = Σ_{i = 1}^{k} E [X_{i}] = k p \geq \frac{k}{2} + k δ

$\mathbb{E}[Y] = \mathbb{E}[\Sigma_{i=1}^k X_i] = \Sigma_{i=1}^k \mathbb{E}[X_i] = kp \geq \frac{k}{2} + k\delta$

$Y< \frac{k}{2}$ $|Y-(\frac{k}{2}+k\delta)| > k\delta$ que é suficiente. Nós temos

P r {| Y - k p | > α k p} < e^{- \frac{α^{2}}{4} k p}

$Pr\{|Y - kp| > \alpha kp\} < e^{-\frac{\alpha^2}{4}kp}$

$\alpha$ $\alpha kp = k\delta$ $\alpha = \frac{\delta}{p} \leq \frac{2\delta}{2\delta+1}$ .

Therefore we have

P r {Y < \frac{k}{2}} \leq P r {| Y - (\frac{k}{2} + k δ) | > k δ} \leq P r {| Y - k p | > α k p} < e^{- \frac{α^{2}}{4} k p}

$Pr\{Y < \frac{k}{2} \} \leq Pr\{|Y - (\frac{k}{2}+k\delta)| > k\delta\} \leq Pr\{|Y - kp| > \alpha kp\} < e^{-\frac{\alpha^2}{4}kp}$

and if you do the calculations you will see that

\frac{α^{2}}{4} k p \leq \frac{δ^{2}}{4 δ + 2} k = Θ (k δ)

$\frac{\alpha^2}{4}kp \leq \frac{\delta^2}{4\delta+2}k = \Theta(k\delta)$

we have

P r {Y < \frac{k}{2}} < e^{- Θ (k δ)}

$Pr\{Y < \frac{k}{2} \} < e^{-\Theta(k\delta)}$

We want the error to be at most $\epsilon$ , so we want

e^{- Θ (k δ)} \leq ϵ

$e^{-\Theta(k\delta)} \leq \epsilon$

or in other words

Θ (δ^{- 1} \lg ϵ) \leq k

$\Theta(\delta^{-1} \lg \epsilon) \leq k$

One essential point here is that in the process we will use many more random bits and also the running time will increase, i.e. the worst-case running-time of $N_k$ will be roughly $k$ times the running-time of $M$ .

Here the mid point of the gap was $\frac{1}{2}$ . But in general this doesn't need to be the case. We can adopt a similar method for other values by taking other fractions in place of majority for accepting.

— Kaveh
fonte

7

Using your notation:

$BPP =\{L : \exists$ a probabilistic polynomial-time Turing Machine $M,$ and a costant $0 < c \leq 1/2$ such that $\forall x \; Pr[\chi_L(x) = M(x)] \geq \frac{1}{2} + c\}$

$PP =\{L : \exists$ a probabilistic polynomial-time Turing Machine $M$ such that $\forall x \; Pr[\chi_L(x) = M(x)] > \frac{1}{2}\}$

The difference has been pointed out by adrianN, and you can also take a look at Wikipedia PP vs BPP

— Vor
fonte