Algoritmo não trivial para calcular uma mediana da janela deslizante

Preciso calcular a mediana em execução:

Entrada: $n$ , $k$ , vetor . $(x_1, x_2, \dotsc, x_n)$
Saída: vetor , em que é a mediana de . $(y_1, y_2, \dotsc, y_{n-k+1})$ $y_i$ $(x_i, x_{i+1}, \dotsc, x_{i+k-1})$

(Sem trapacear com aproximações; eu gostaria de ter soluções exatas. Os elementos são números inteiros grandes.) $x_i$

Existe um algoritmo trivial que mantém uma árvore de pesquisa de tamanho ; o tempo total de execução é . (Aqui, uma "árvore de pesquisa" refere-se a alguma estrutura de dados eficiente que suporta inserções, exclusões e consultas medianas em tempo logarítmico.) $k$ $O(n \log k)$

No entanto, isso me parece um pouco estúpido. Aprenderemos efetivamente todas as estatísticas de pedidos em todas as janelas de tamanho , não apenas nas medianas. Além disso, na prática, isso não é muito atraente, especialmente se for grande (grandes árvores de pesquisa tendem a ser lentas, a sobrecarga no consumo de memória não é trivial, a eficiência do cache geralmente é baixa etc.). $k$ $k$

Podemos fazer algo substancialmente melhor?

Existem limites mais baixos (por exemplo, o algoritmo trivial é assintoticamente ideal para o modelo de comparação)?

Edit: David Eppstein deu um bom limite inferior para o modelo de comparação! Gostaria de saber se, no entanto, é possível fazer algo um pouco mais inteligente do que o algoritmo trivial?

Por exemplo, poderíamos fazer algo nesse sentido: dividir o vetor de entrada em partes do tamanho ; classifique cada parte (mantendo o controle das posições originais de cada elemento); e, em seguida, use o vetor classificado por partes para encontrar as medianas em execução de maneira eficiente sem nenhuma estrutura de dados auxiliar? É claro que isso ainda seria , mas, na prática, as matrizes de classificação tendem a ser muito mais rápidas do que manter as árvores de pesquisa. $k$ $O(n \log k)$

Edit 2: Saeed queria ver algumas razões pelas quais eu acho que a classificação é mais rápida do que as operações da árvore de pesquisa. Aqui estão referências muito rápidas, para , : $k = 10^7$ $n = 10^8$

≈ 8s: classificando vetores com elementos cada $n/k$ $k$
≈ 10s: classificando um vetor com elementos $n$
Anos 80: inserções e exclusões em uma tabela de tamanho $n$ $k$
≈ 390s: inserções e exclusões em uma árvore de pesquisa equilibrada de tamanho $n$ $k$

A tabela de hash está lá apenas para comparação; não é de uso direto nesta aplicação.

Em resumo, temos quase uma diferença de fator 50 no desempenho da classificação versus operações equilibradas da árvore de pesquisa. E as coisas pioram se aumentarmos . $k$

(Detalhes técnicos: Dados = inteiros aleatórios de 32 bits. Computador = um laptop moderno típico. O código de teste foi escrito em C ++, usando as rotinas de biblioteca padrão (std :: sort) e estruturas de dados (std :: multiset, std :: Eu usei dois compiladores C ++ diferentes (GCC e Clang) e duas implementações diferentes da biblioteca padrão (libstdc ++ e libc ++). Tradicionalmente, std :: multiset era implementado como uma árvore vermelho-preta altamente otimizada.

ds.algorithms ds.data-structures lower-bounds

— Jukka Suomela
fonte

Eu não acho que você vai ser capaz de melhorar

. A razão é, se você olhar para uma janela

n l o g k

$nlogk$

, você nunca pode descartar nenhum dos números

x_{t}, . . ., x_{t + k - 1}

$x_t,...,x_{t+k-1}$

de ser mediana da janela futura. Isso significa que, a qualquer momento, você deve manter pelo menos

x_{t + \frac{k}{2}}, . . ., x_{t + k - 1}

$x_{t+\frac{k}{2}},...,x_{t+k-1}$

inteiros em uma estrutura de dados e parece não ser atualizada em menos de tempo de log.

\frac{k}{2}

$\frac{k}{2}$

— RB

Seu algoritmo trivial para mim parece ser

não

, estou entendendo algo errado? E eu acho que por causa disso você tem problemas com o grande

, caso contrário, o fator logarítmico não é nada em aplicações práticas, também não há grande constante oculta nesse algoritmo.

O ((n - k) \cdot k \cdot \log k)

$O((n-k)\cdot k \cdot \log k)$

O (n \log k)

$O(n \log k)$

k

$k$

— Saeed

@ Saeed: No algoritmo trivial, você processa os elementos um por um; no passo

i

$i$ você adiciona

à árvore de pesquisa e (se

) também remove

da árvore de pesquisa. São

etapas, cada uma das quais leva tempo

x_{i}

$x_i$

i > k

$i > k$

x_{i - k}

$x_{i-k}$

n

$n$

O (\log k)

$O(\log k)$

— Jukka Suomela 24/03

Quer dizer que você tem uma árvore de pesquisa equilibrada e não uma árvore de pesquisa casual?

— Saeed

@ Saeed: Observe que, nos meus benchmarks, nem tentei encontrar medianas. Acabei de fazer

inserções e

exclusões em uma árvore de pesquisa de tamanho

, e é garantido que essas operações levem tempo

. Você só precisa aceitar que as operações da árvore de pesquisa são muito lentas na prática, em comparação com a classificação. Você verá isso facilmente se tentar escrever um algoritmo de classificação que funcione adicionando elementos a uma árvore de pesquisa balanceada - ele certamente funciona em

, mas será ridiculamente lento na prática e também desperdiçará muito. de memória.

n

$n$

n

$n$

k

$k$

O (\log k)

$O(\log k)$

O (n \log n)

$O(n \log n)$

— Jukka Suomela

Respostas:

Aqui está um limite inferior da classificação. Dado um conjunto de entrada de comprimento a ser classificado, crie uma entrada para o seu problema mediano em execução que consiste em cópias de um número menor que o mínimo de , depois si e, em seguida, cópias de um número maior que o máximo de e defina $S$ $n$ $n-1$ $S$ $S$ $n-1$ $S$ . As medianas de execução deste entrada são o mesmo que a ordem de classificação de . $k=2n-1$ $S$

Assim, em um modelo de comparação de computação, é requerido tempo. Possivelmente, se suas entradas forem inteiras e você usar algoritmos de classificação inteira, poderá fazer melhor. $\Omega(n\log n)$

— David Eppstein
fonte

Essa resposta realmente me faz pensar se o inverso também é válido: dado um algoritmo de classificação eficiente, obtemos um algoritmo mediano de execução eficiente? (Por exemplo, faz no algoritmo inteiro triagem eficiente implica em correr algoritmo mediano eficiente para inteiros Ou faz um algoritmo de classificação IO-eficiente fornecer um correndo algoritmo mediano IO-eficientes?)

— Jukka Suomela

Mais uma vez, muito obrigado pela sua resposta, ele realmente me colocou no caminho certo e inspirou o algoritmo de filtro mediano baseado em classificação! No final, pude encontrar um artigo de 1991 que apresentasse basicamente o mesmo argumento que você apresenta aqui, e Pat Morin apontou para outro artigo relevante de 2005; veja refs. [6] e [9] aqui .

— Jukka Suomela

Edit: Este algoritmo agora é apresentado aqui: http://arxiv.org/abs/1406.1717

Sim, para resolver esse problema, é suficiente executar as seguintes operações:

Classifique vetores, cada um com elementos. $n/k$ $k$
Pós-processamento em tempo linear.

Muito grosso modo, a ideia é esta:

Considere dois blocos adjacentes de entrada, e , ambos com elementos ; deixar os elementos ser e $a$ $b$ $k$ $a_1, a_2, ..., a_k$ na ordem de aparência no vetor de entrada $b_1, b_2, ..., b_k$ $x$ .
Classifique esses blocos e aprenda a classificação de cada elemento dentro do bloco.
Aumentar os vectores de e com ponteiros predecessor / sucessor de modo que, seguindo as cadeias ponteiro que pode atravessar os elementos em ordem crescente. Desta forma, temos construído duplamente listas ligadas e . $a$ $b$ $a'$ $b'$
Um por um, exclua todos os elementos da lista vinculada , na ordem inversa da aparência $b'$ . Sempre que excluirmos um elemento,lembre-se de qual foi seu sucessor e predecessor no momento da exclusão. $b_k, b_{k-1}, ..., b_1$
Agora manter "ponteiros medianos" e que apontam para listas de e , respectivamente. Inicialize no ponto médio de e inicialize no final da lista vazia . $p$ $q$ $a'$ $b'$ $p$ $a'$ $q$ $b'$
Para cada : $i$
- Exclua da lista (é hora , apenas exclua da lista vinculada). Comparar com o elemento apontado por para ver se excluído antes ou depois . $a_i$ $a'$ $O(1)$ $a_i$ $p$ $p$
- Coloque volta à lista em sua posição original (este é o tempo , memorizamos o antecessor e sucessor de $b_i$ $b'$ $O(1)$ $b_i$ $b_i$ $q$ $q$ .
- $p$ $q$ $a' \cup b'$ $p$ $q$ $O(1)$ $p$ $q$ $p$ $q$

$k$

Aqui está um exemplo de implementação e benchmarks:

https://github.com/suomela/median-filter

$n \approx 2\cdot 10^6$

$O(n \log k)$ .
$O(n \log k)$ , implementação em https://github.com/craffel/median-filter
$O(n \log k)$ .
$O(n k)$ .
$\approx k/2$ ).
Eixo Y = tempo de execução em segundos.
Dados = números inteiros de 32 bits e números aleatórios de 64 bits, de várias distribuições.

tempos de execução

— Jukka Suomela
fonte

$m$ $O(n \log m + m \log n)$

$O(\log m)$ $O(\log n)$ $O(\log n)$ a cobrança ocorre apenas uma vez por mediana.

$O(n \log m + m \log k)$

— Geoffrey Irving
fonte

Ops, isso não funciona como está escrito, pois se você não excluir elementos, as contagens não refletirão a nova janela. Não tenho certeza se isso pode ser corrigido, mas deixarei a resposta caso haja uma maneira.

— Geoffrey Irving

O (n \log m)

$O(n \log m)$

nota lateral: A pergunta não está clara, a estrutura de dados subjacente não está definida, apenas sabemos algo muito vago. como você quer melhorar algo que você não sabe o que é? como você deseja comparar sua abordagem?

— Saeed

Peço desculpas pelo trabalho incompleto. Fiz a pergunta concreta necessária para corrigir esta resposta aqui: cstheory.stackexchange.com/questions/21778/… . Se você achar apropriado, posso remover esta resposta até que a questão secundária seja resolvida.

— Geoffrey Irving