Algoritmo eficiente para distância de edição para sequências curtas

Eu tenho um aplicativo que precisa calcular bilhões de distâncias de levenshtein entre pares de strings. As cadeias são sequências de DNA curtas (70 de comprimento), consistindo apenas de 4 caracteres. Também pode-se supor que uma das seqüências seja fixa, ou seja, estamos comparando uma sequência fixa com um bilhão de outras seqüências.

Eu sei que a implementação de programação dinâmica da distância levenshtein é $\mathcal{O}(m n)$ , gostaria de saber se há algum espaço para melhorias. Eu encontrei esses dois algoritmos:

$\mathcal{O}(n + d^2)$ algoritmo, em que é a distância de edição de Berghel et al . No entanto, não posso assumir que é pequeno, por isso pode não dar nenhuma vantagem $d$ $d$
aproximação em tempo de Andoni et al . Mas tenho duas preocupações com relação a isso:
- Esse algoritmo também é rápido na prática?
- Faz $log(n)^{\mathcal{O}(1/\epsilon)}$ significa que a distância de edição calculada no pior dos casos é $log(n)^{\mathcal{O}(1/\epsilon)}$ vezes o real? Nesse caso, é demais.

Você conhece algum outro algoritmo / idéia / abordagem que possa ser aplicável?

strings edit-distance

— Ameer Jewdaki
fonte

Você já viu os autômatos de Levenshtein?

— Adriann

Tem que ser exatamente a distância de Levenshtein ou alguma distância de edição relativamente consistente é boa o suficiente?

— Pål GD

Você está interessado apenas na distância de edição se a distância de edição estiver abaixo de algum limite (por exemplo, se a distância de edição for

> 20

$> 20$ , você não se importa com a distância exata de edição; apenas saiba que é

> 20

$> 20$ é suficiente)?

— DW

O DNA é realmente Levenshtein semelhante? 11 versus 00 é 2 para Levenshtein, mas 10 versus 01 é apenas 1. Eu ficaria realmente surpreso com o DNA de uma correspondência ou não, é tudo o que importa.

— Paparazzo

@ PålGD uma boa aproximação da distância de Levenshtein também pode ser boa.

— Ameer Jewdaki

Respostas:

Uma abordagem é construir um autômato de Levenshtein para a cadeia fixa (veja, por exemplo, aqui ). Dada uma string $x$ e uma distância $D$ , você pode criar um DFA que reconheça todas as strings que estão à distância $\le D$ de $x$ . Assim, você pode testar se uma sequência está próxima de $x$ no $O(n)$ hora, onde $n$ é o comprimento da string. Não tenho certeza de quais são os requisitos de espaço para armazenar o DFA (eles são lineares em $m,n$ , mas pode ser exponencial em $D$ )

Como alternativa, você pode usar um algoritmo "early-out" para calcular a distância de edição. Você mencionou que só está interessado na distância de edição se for menor que algum limite $D$ . Existe um algoritmo "early-out" para calcular a distância de edição cujo tempo de execução é $O(\max(n,m) \times D)$ , que calcula a distância de edição, se for $\le D$ ou então gera "muito grande" se for $>D$ . Basicamente, você executa o algoritmo de programação dinâmica padrão para a distância de edição, mas calcula apenas os elementos da matriz que são $\le D$ longe da diagonal. No seu caso, isso pode ou não ser melhor do que as outras alternativas.

— DW
fonte

-1

Se eu tivesse que fazer bilhões e tivesse apenas 4 caracteres, eu os representaria como
1000
0100
0010
0001.
É um número inteiro de 35 bytes.

Pontue um pouco ande conte os 1s

Não é perfeito, mas bilhões é muito, a menos que você jogue muita CPU nele.

— paparazzo
fonte

Na verdade, são alguns trilhões de chamadas à distância no total, mas eu tenho acesso a um cluster de computação. O problema é que, se duas seqüências tiverem 100 comprimentos e houver várias inserções ou exclusões, o produto escalar se desviará da distância real.

— Ameer Jewdaki

OK, você disse 70 de comprimento. Surpreende-me que um algoritmo baseado em palavras se aplique ao DNA. Existem equações científicas correspondentes a DNA - Estou surpreso que você não esteja usando uma delas.

— Paparazzo

Não estou reclamando, mas um DV não me ajuda a ser um colaborador melhor aqui.

— 26417 paparazzo

Não votei negativamente na resposta. Na verdade, acho que geralmente é uma boa abordagem, mas aqui está muito longe por causa de inserções / exclusões.

— Ameer Jewdaki

e sim, existem maneiras probabilísticas de definir a distância entre duas seqüências de DNA, mas nenhuma, acredito, é mais simples de calcular do que editar a distância. Então aqui eu estou apenas começando com a medida "simples"

— Ameer Jewdaki