Como o anel interno é escolhido no algoritmo de Schönhage

Eu tenho tentado implementar o algoritmo de multiplicação de números inteiros Schönhage-Strassen, mas atingi um obstáculo na etapa recursiva.

Eu tenho um valor com bits e quero calcular . Eu originalmente pensei que a idéia era escolher um tal que , dividir em pedaços cada um com bits, aplicar a convolução da SSA enquanto trabalhava no módulo , um anel com bits de capacidade por valor e, em seguida, reinstale as peças. No entanto, a saída da convolução tem um pouco mais de bits (ou seja, $x$ $n$ $x^2 \pmod {2^n+1}$ $k$ $4^k \geq 2n$ $x$ $2^k$ $2^{k-1}$ $2^{2^k}+1$ $2^k$ $2n$ $>2^k$ bits por valor de saída, que é mais do que a capacidade do anel, devido a cada valor de saída ser uma soma de vários produtos) para que isso não funcione. Eu tive que adicionar um fator extra de 2 de preenchimento.

Esse fator extra de 2 no preenchimento arruina a complexidade. Isso torna meu passo recursivo muito caro. Em vez de um $F(n) = n \lg n + \sqrt{n} F(2 \sqrt{n}) = \Theta(n \; \lg n \; \lg \lg n)$ , acabo com um algoritmo $F(n) = n \lg n + \sqrt{n} F(4 \sqrt{n}) = \Theta(n \lg^2 n)$ .

Li algumas referências vinculadas da wikipedia, mas todas parecem encobrir os detalhes de como esse problema foi resolvido. Por exemplo, eu poderia evitar a sobrecarga do preenchimento extra trabalhando no módulo $2^{p 2^k} + 1$ para um $p$ que não é uma potência de 2 ... mas depois as coisas quebram mais tarde, quando eu tenho apenas de-2 fatores restantes e não pode aplicar o Cooley-Tukey sem dobrar o número de peças. Além disso, $p$ pode não ter um módulo inverso multiplicativo $2^p+1$ . Portanto, ainda há fatores forçados de 2 sendo introduzidos.

Como escolho o anel para usar durante a etapa recursiva, sem soprar a complexidade assintótica?

Ou, na forma de pseudo-código:

multiply_in_ring(a, b, n):
  ...
  // vvv                          vvv //
  // vvv HOW DOES THIS PART WORK? vvv //
  // vvv                          vvv //
  let inner_ring = convolution_ring_for_values_of_size(n);
  // ^^^                          ^^^ //
  // ^^^ HOW DOES THIS PART WORK? ^^^ //
  // ^^^                          ^^^ //

  let input_bits_per_piece = ceil(n / inner_ring.order);
  let piecesA = a.splitIntoNPiecesOfSize(inner_ring.order, input_bits_per_piece);
  let piecesB = b.splitIntoNPiecesOfSize(inner_ring.order, input_bits_per_piece);

  let piecesC = inner_ring.negacyclic_convolution(piecesA, piecesB);
  ...

ds.algorithms

— Craig Gidney
fonte

Por favor, não postar a mesma pergunta em vários sites . Cada comunidade deve ter uma chance honesta de responder sem perder tempo com ninguém. Sugiro que você exclua uma das duas cópias.

— DW

@DW Done. Fiz uma postagem cruzada depois que o cs não deu nenhuma resposta por uma semana, pensando que era muito difícil para esse site. Iria vincular de volta todas as respostas, obviamente.

— 22416 Craig Gidney

Compreendo. Se surgir no futuro, você sempre poderá sinalizar sua postagem para obter atenção do moderador e solicitar a migração, e podemos transferi-la para o CSTheory. Obrigado pela sua compreensão!

— 19416 DW

Existe uma versão do algoritmo que funciona com números de módulo da forma : A. Schönhage. Algoritmos assintoticamente rápidos para a multiplicação e divisão numérica de polinômios com coeficientes complexos. Em EUROCAM '82: European Computer Algebra Conference, Lect. Notas Comp. Sci. 144, 3-15. iai.uni-bonn.de/~schoe/publi39.dvi

2^{ν 2^{n}}

$2^{\nu2^n}$

— Markus Bläser

IIRC, você teve uma resposta parcial na questão CS agora excluída. Parece uma pena perder isso. Você pode incluí-lo aqui (na pergunta, para que a pergunta não esteja marcada como já respondida)?

— Peter Taylor

Esta resposta é retirada do artigo "Algoritmos assintoticamente rápidos para a multiplicação e divisão numérica de polinômios com coeficientes complexos" que Markus vinculou nos comentários.

Você deseja quadrado um número de bits, módulo . Aqui está o que você faz: $n$ $2^n + 1$

Encontrar e que satisfazem e . $p$ $s$ $n = (p-1) 2^s$ $s \leq p \leq 2s$
Escolha o número de peças para dividir os bits e os parâmetros correspondentes para os tamanhos das peças: $2^m$ $n$

$\begin{aligned} m & = ⌊ s / 2 ⌋ + 1 \\ s_{2} & = ⌈ s / 2 ⌉ + 1 \\ p_{2} & = ⌈ p / 2 ⌉ + 1 \end{aligned}$ $\begin{align} m &= \lfloor s/2 \rfloor + 1 \\s_2 &= \lceil s/2 \rceil + 1 \\ p_2 &= \lceil p/2 \rceil + 1 \end{align}$
Observe que e $s_2$ $p_2$ continuam satisfazendo os invariantes . Observe também que é satisfeito, portanto a entrada se encaixa com espaço para transporte. $s_2 \leq p_2 \leq 2 s_2$ $2^m 2^{s_2} p_2 \geq 2n + m + 1$
Realize a convolução negacíclica baseada na FFT nas peças e no restante, como de costume.

Então essa é a ideia geral: um fator de preenchimento logarítmico . Agora, para a análise de complexidade. A FFT levará trabalho a fazer, e estamos recorrendo em peças de de tamanho , para que agora possamos fazer contas extremamente grosseiras com a relação de recorrência wrt : $p$ $n m$ $2^m$ $(p_2-1) 2^{s_2}$ $s$

\begin{aligned} F (s) & (\leq) (p - 1 1) 2^{s} m + 2^{m} F (⌈ s / 2 ⌉ + 1 1) \\ (\leq) 2 s 2^{s} (⌊ s / 2 ⌋ + 1 1) + 2^{⌊ s / 2 ⌋ + 1 1} F (⌈ s / 2 ⌉ + 1 1) \\ (\leq) s^{2} 2^{s} + 2 \cdot 2^{s / 2} F (s / 2 + 1 1) \\ (\leq) s^{2} 2^{s} + 4 (s / 2)^{2} 2^{s} + 16 (s / 4)^{2} 2^{s} + . . . \\ (\leq) 2^{s} s^{2} \lg (s) \\ (\leq) \frac{n}{\lg n} {(\lg \frac{n}{\lg n})}^{2} \lg \lg \frac{n}{\lg n} \\ (\leq) \frac{n}{\lg n} (\lg^{2} n) \lg \lg n \\ (\leq) n (\lg n) \lg \lg n \end{aligned}

$\begin{align} F(s) &(\leq)\; (p-1)2^sm + 2^m F(\lceil s/2\rceil+1) \\ &(\leq)\; 2s2^s (\lfloor s/2\rfloor+1) + 2^{\lfloor s/2\rfloor+1} F(\lceil s/2\rceil+1) \\ &(\leq)\; s^2 2^s + 2 \cdot 2^{s/2} F(s/2+1) \\ &(\leq)\; s^2 2^s + 4 (s/2)^2 2^s + 16(s/4)^2 2^s + ... \\ &(\leq)\; 2^s s^2 \lg(s) \\ &(\leq)\; \frac{n}{\lg n} \left(\lg \frac{n}{\lg n}\right)^2 \lg \lg \frac{n}{\lg n} \\ &(\leq)\; \frac{n}{\lg n} (\lg^2 n) \lg \lg n \\ &(\leq)\; n \;(\lg n) \lg \lg n \end{align}$

O que parece certo, embora eu tenha trapaceado bastante nessas etapas.

O "truque" parece ser o fato de acabarmos com vez de no custo base. Ainda existem duas multiplicações por duas por nível recursivo, como eu estava reclamando na pergunta, mas agora a metade de está pagando dividendos duplos, para que tudo dê certo. Então, no final, cancelamos o fator extra de (que na verdade é um fator de ), graças a tornar logaritmicamente grande em relação a inicialmente. $s^2$ $s$ $s$ $s$ $\log n$ $p$ $s$

— Craig Gidney
fonte

Como o anel interno é escolhido no algoritmo de Schönhage – Strassen?