Editar distância entre duas partições

Eu tenho duas partições de $[1 \ldots n]$ e estou procurando a distância de edição entre elas.

Com isso, desejo encontrar o número mínimo de transições únicas de um nó em um grupo diferente necessário para passar da partição A para a partição B.

Por exemplo, a distância de {0 1} {2 3} {4}dentro {0} {1} {2 3 4}seria dois

Após a pesquisa, deparei-me com este documento, mas a) não tenho certeza se eles estão levando em consideração a ordem dos grupos (algo com o qual não me importo) à distância b) não tenho certeza de como ele funciona ec) Não há referências.

Qualquer ajuda apreciada

ds.algorithms edit-distance lattice

— zenna
fonte

Qual você consideraria a distância entre {0 1 2 3} e {0 1} {2 3}? Seria 2? Em segundo lugar, não vejo por que "gráficos" entram em cena. Parece que você tem duas partições de [n] e deseja calcular uma distância entre elas.

— Suresh Venkat

Sim, seriam dois. De fato, essas são partições definidas nos nós de um gráfico (ou seja, uma partição de gráfico). Provavelmente isso não é importante para a solução, mas esse é o problema que estou tentando resolver, por isso mencionei.

— Zenna

Se o gráfico for irrelevante, remova todas as referências a "gráficos" e "nós" da sua pergunta; não ajuda, distrai.

— Jukka Suomela

A distância de edição não pode ser definida em termos da distância na estrutura da partição?

— Tegiri Nenashi

@Tegiri - É de fato a distância geodésica na treliça dos partititons. Infelizmente, a computação dessa estrutura para qualquer conjunto de cardinalidade muito superior a 10 é intratável.

— Zenn 31/08

Respostas:

Esse problema pode ser transformado no problema de atribuição , também conhecido como problema de correspondência bipartida ponderada máxima.

Observe primeiro que a distância de edição é igual ao número de elementos que precisam ser alterados de um conjunto para outro. Isso é igual ao número total de elementos menos o número de elementos que não precisam ser alterados. Portanto, encontrar o número mínimo de elementos que não mudam é equivalente a encontrar o número máximo de vértices que não mudam.

Deixe e ser partições de . Além disso, sem perda de generalidade, deixar (permitida porque $A = \{ A_1, A_2, ..., A_k \}$ $B = \{ B_1, B_2, ..., B_l \}$ $[1, 2, ..., n]$ $k \ge l$ ). Então deixe , , ..., todos os conjuntos vazios. Então, o número máximo de vértices que não são alterados é: $edit(A, B) = edit(B, A)$ $B_{l+1}$ $B_{l+2}$ $B_k$

$\max_f \sum_{i=1}^k |A_i \cap B_{f(i)} |$

onde é uma permutação de . $f$ $[1, 2, ..., k]$

Esse é exatamente o problema de atribuição em que os vértices são , ..., , , ..., e as arestas são pares com peso. Isso pode ser resolvido no tempo . $A_1$ $A_k$ $B_1$ $B_k$ $(A_i, B_j)$ $|A_i \cap B_j|$ $O(|V|^2 \log |V| + |V||E|)$

— bbejot
fonte

Você poderia nomear o algoritmo, o que dá complexidade a esse tempo, por favor?

— D-503

Acredito que @bbejot está se referindo ao algoritmo sucessivo de caminho mais curto (com a sub-rotina Dijkstra implementada usando pilhas de fibonacci).

— 19419 Wei

Levei muito tempo para analisar isso porque não sou uma pessoa de matemática, mas obrigado. Passei muito tempo pesquisando e essa foi a única coisa que pude encontrar que mostrou como converter o problema da distância da partição no problema de atribuição - ou em qualquer algoritmo que eu pudesse chamar de uma biblioteca Python. (A parte mais difícil para mim foi descobrir como usar scipy.optimize.linear_sum_assignment e, em seguida, para configurar as matrizes com base nestas instruções.)

— Sigfried

Eu precisava tornar os pesos negativos. Caso contrário, scipy.optimize.linear_sum_assignment me fornecerá 0 para tudo.

— Sigfried

Veja o PDF deste artigo

http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.0030160

A definição da distância de edição é exatamente o que você precisa, eu acho. A partição 'referência' seria (arbitrária) uma das suas duas partições, a outra seria simplesmente a outra. Também contém citações relevantes.

Best, Rob

— Roubar
fonte

Obrigado Rob. No entanto, a menos que esteja faltando alguma coisa, essa é uma distância de edição definida em termos de movimentos de divisão e mesclagem. Estes são bem estudados e, como o artigo indica, a variação da informação é uma medida teórica da informação. No entanto, estou interessado em transições de movimento de elemento único.

— Zenna 31/08/11

Ideia irritadiça da manhã de domingo que pode ou não estar correta:

Wlog, seja a partição com mais conjuntos, a outra. Primeiro, atribua nomes diferentes aos pares aos seus conjuntos . Em seguida, encontre a melhor nomenclatura para os conjuntos pelas seguintes regras: $P_1$ $P_2$ $n_1(S) \in \Sigma$ $P_1$ $n_2(S)$ $P_2$

$n_2(S) := n_1(S')$ para com máximo entre todos os ; escolha aquele que criar o mínimo de conflitos, se várias opções forem possíveis. $S \in P_2$ $S \cap S'$ $S' \in P_1$
Se agora para alguns , atribua aquele que compartilha menos elementos com , o nome do conjunto em ele compartilha o segundo maior número de elementos, ou seja, compete pelo nome do conjunto. $n_2(S) = n_2(S')$ $S \neq S'$ $S'', n_1(S'') = n_2(S)$ $P_1$
Se a regra anterior não puder ser aplicada, verifique se os dois conjuntos podem competir pelo nome de outros conjuntos com os quais compartilham menos elementos (eles ainda podem ter mais elementos de algum que os conjuntos aos quais foi atribuído seu nome!). Em caso afirmativo, atribua esse nome ao de que compartilha mais elementos com o respectivo conjunto cujo nome eles podem competir; o outro mantém o nome anteriormente conflitante. $S'' \in P_1$ $S, S'$
Itere este procedimento até que todos os conflitos sejam resolvidos. Como não possui menos conjuntos que , existem nomes suficientes. $P_1$ $P_2$

Agora, você pode considerar as cadeias de bits de seus elementos em qualquer partição, ou seja, e ( com ). Então, a quantidade desejada é , ou seja, a distância de Hamming entre as seqüências de bits. $w_1 = n_1(1) \cdot \dots \cdot n_1(n)$ $w_2 = n_2(1) \cdot \dots \cdot n_2(n)$ $n_j(i) = n_j(S), i \in S \in P_j$ $d_H(w_1, w_2)$

— Rafael
fonte