115

Converter expressões regulares em NFA (mínimo) que aceitam o mesmo idioma é fácil com algoritmos padrão, por exemplo, o algoritmo de Thompson . A outra direção parece ser mais entediante e, às vezes, as expressões resultantes são confusas.

Quais algoritmos existem para converter NFA em expressões regulares equivalentes? Existem vantagens em relação à complexidade do tempo ou tamanho do resultado?

^{Esta deveria ser uma pergunta de referência. Inclua uma descrição geral do seu método, bem como um exemplo não trivial.}

— Rafael
fonte

2

Observe uma pergunta semelhante em cstheory.SE, que provavelmente não é adequada para o nosso público.

— Raphael

todas as respostas usam a técnica formal para escrever RE do DFA. Acredito que minha técnica de análise é comparativamente fácil e objetiva que demonstro em minha resposta: Qual é a linguagem desse autômato finito determinístico? Eu acho que seria útil algum dia. Sim, de curso em algum momento eu me usa método formal (Arden teorema) para escrever RE é questão é complexa como dada neste exemplo: Como escrever expressão regular para uma DFA

— Grijesh Chauhan

94

Existem vários métodos para fazer a conversão de autômatos finitos em expressões regulares. Aqui vou descrever o que normalmente é ensinado na escola, que é muito visual. Eu acredito que é o mais usado na prática. No entanto, escrever o algoritmo não é uma boa idéia.

Método de remoção de estado

Esse algoritmo trata do manuseio do gráfico do autômato e, portanto, não é muito adequado para algoritmos, pois ele precisa de primitivas do gráfico, como ... remoção de estado. Vou descrevê-lo usando primitivas de nível superior.

A ideia chave

A idéia é considerar expressões regulares nas arestas e remover estados intermediários, mantendo os rótulos das arestas consistentes.

O padrão principal pode ser visto a seguir nas figuras. O primeiro possui rótulos entre que são expressões regulares queremos remover . $p,q,r$ $e,f,g,h,i$ $q$

autômato pqr

Uma vez removidos, compomos juntos (enquanto preservamos as outras arestas entre e mas isso não é exibido aqui): $e,f,g,h,i$ $p$ $r$

insira a descrição da imagem aqui

Exemplo

Usando o mesmo exemplo da resposta de Raphael :

1-2-3 autômato

removemos sucessivamente : $q_2$

1-3 autômato

e depois : $q_3$

1 autômato

ainda precisamos aplicar uma estrela na expressão de a . Nesse caso, o estado final também é inicial; portanto, precisamos apenas adicionar uma estrela: $q_1$ $q_1$

(a b + (b + a a) (b a)^{*} (a + b b))^{*}

$(ab+(b+aa)(ba)^*(a+bb))^*$

Algoritmo

L[i,j]é a regexp do idioma de a . Primeiro, removemos todas as arestas múltiplas: $q_i$ $q_j$

for i = 1 to n:
  for j = 1 to n:
    if i == j then:
      L[i,j] := ε
    else:
      L[i,j] := ∅
    for a in Σ:
      if trans(i, a, j):
        L[i,j] := L[i,j] + a

Agora, a remoção do estado. Suponha que desejemos remover o estado : $q_k$

remove(k):
  for i = 1 to n:
    for j = 1 to n:
      L[i,i] += L[i,k] . star(L[k,k]) . L[k,i]
      L[j,j] += L[j,k] . star(L[k,k]) . L[k,j]
      L[i,j] += L[i,k] . star(L[k,k]) . L[k,j]
      L[j,i] += L[j,k] . star(L[k,k]) . L[k,i]

Note-se que ambos com um lápis de papel e com um algoritmo que você deve simplificar expressões como star(ε)=ε, e.ε=e, ∅+e=e, ∅.e=∅(por mão você simplesmente não escrever a borda quando não está , ou mesmo para uma auto-loop e você ignorar quando há nenhuma transição entre e ou e ) $∅$ $ε$ $q_i$ $q_k$ $q_j$ $q_k$

Agora, como usar remove(k)? Você não deve remover os estados finais ou iniciais de ânimo leve, caso contrário, perderá partes do idioma.

for i = 1 to n:
  if not(final(i)) and not(initial(i)):
    remove(i)

Se você tiver apenas um estado final e um estado inicial , a expressão final será: $q_f$ $q_s$

e := star(L[s,s]) . L[s,f] . star(L[f,s] . star(L[s,s]) . L[s,f] + L[f,f])

Se você possui vários estados finais (ou mesmo estados iniciais), não há uma maneira simples de mesclar esses, além de aplicar o método de fechamento transitivo. Normalmente, este não é um problema manual, mas é complicado ao escrever o algoritmo. Uma solução muito mais simples é enumerar todos os pares e executar o algoritmo no gráfico (já removido pelo estado) para obter todas as expressões supondo que é o único estado inicial é o único final estado, fazendo a união de todos os . $(s,f)$ $e_{s,f}$ $s$ $f$ $e_{s,f}$

Isso e o fato de modificar linguagens de maneira mais dinâmica que o primeiro método tornam mais propenso a erros na programação. Eu sugiro usar qualquer outro método.

Contras

Existem muitos casos nesse algoritmo, por exemplo, para escolher qual nó devemos remover, o número de estados finais no final, o fato de que um estado final também pode ser inicial etc.

Observe que agora que o algoritmo está escrito, é muito parecido com o método de fechamento transitivo. Somente o contexto do uso é diferente. Não recomendo implementar o algoritmo, mas usar o método para fazer isso manualmente é uma boa idéia.

— jmad
fonte

1

No exemplo, 2ª imagem, após a remoção do nó "2", há uma borda ausente - borda do loop (ab) no nó A.

— Panos Kal.

@Kabamaru: Fixed. Mas agora acho que o na 3ª imagem também deveria estar , e da mesma forma talvez na expressão regular final.

ε

$\varepsilon$ ab

— Wandering Logic

Você pode fazer o algoritmo funcionar para qualquer número de estados inicial e final adicionando um novo inicial e um novo estado final e conectando-os aos estados inicial e final originais por -edges. Agora remova todos os estados originais. A expressão é então encontrada na única borda restante de a . A construção não dará loops em ou pois esses estados não têm resp. bordas de saída. Ou, se você for rigoroso, eles terão rótulos representando o conjunto vazio.

q^{+}

$q^+$

q^{-}

$q^-$

ε

$\varepsilon$

q^{+}

$q^+$

q_{-}

$q_-$

q^{+}

$q^+$

q_{-}

$q_-$

— Hendrik Jan

1

Ainda existe um problema com o segundo exemplo: antes da simplificação, os autômatos aceitam "ba", (1, 3, 1), mas após a simplificação, não.

— Wvxvw

50

Método

O método mais legal que eu já vi é o que expressa o autômato como sistema de equações de linguagens (regulares) que podem ser resolvidas. É particularmente agradável, pois parece produzir expressões mais concisas do que outros métodos.

Seja um NFA sem varepsilon. Para cada estado , crie a equação $A= (Q,\Sigma,\delta,q_0,F)$ $\varepsilon$ $q_i$

$\qquad \displaystyle Q_i = \bigcup\limits_{q_i \overset{a}{\to} q_j} aQ_j \cup \begin{cases} \{\varepsilon\} &,\ q_i \in F \\ \emptyset &, \text{ else}\end{cases}$

onde é o conjunto de estados finais e significa que há uma transição de para rotulado com . Se você ler como ou (dependendo da sua definição de expressão regular), verá que essa é uma equação de expressões regulares. $F$ $q_i \overset{a}{\to} q_j$ $q_i$ $q_j$ $a$ $\cup$ $+$ $\mid$

Para resolver o sistema, você precisa de associatividade e distributividade de e (concatenação de cordas), comutatividade de e Lemma de Arden ¹: $\cup$ $\cdot$ $\cup$

Deixe- linguagens regulares com . Então, $L,U,V \subseteq \Sigma^*$ $\varepsilon \notin U$

$\qquad \displaystyle L = UL \cup V \quad \Longleftrightarrow \quad L = U^*V$

A solução é um conjunto de expressões regulares , uma para cada estado . descreve exatamente aquelas palavras que podem ser aceitas por quando iniciadas em ; portanto, (se for o estado inicial) é a expressão desejada. $Q_i$ $q_i$ $Q_i$ $A$ $q_i$ $Q_0$ $q_0$

Exemplo

^{Por uma questão de clareza, denotamos conjuntos de singleton por seu elemento, ou seja, . O exemplo é devido a Georg Zetzsche. $a = \{a\}$}

Considere este NFA:

exemplo nfa
^{[ fonte ]}

O sistema de equações correspondente é:

$\qquad \begin{align} Q_0 &= aQ_1 \cup bQ_2 \cup \varepsilon \\ Q_1 &= bQ_0 \cup aQ_2 \\ Q_2 &= aQ_0 \cup bQ_1 \end{align}$

Agora conecte a terceira equação na segunda:

$\qquad \begin{align} Q_1 &= bQ_0 \cup a(aQ_0 \cup bQ_1) \\ &= abQ_1 \cup (b \cup aa)Q_0 \\ &= (ab)^*(b \cup aa)Q_0 \end{align}$

Para a última etapa, aplicamos o lema de Arden com , e . Observe que todos os três idiomas são regulares e , permitindo aplicar o lema. Agora, conectamos esse resultado à primeira equação: $L = Q_1$ $U = ab$ $V = (b \cup aa) \cdot Q_0$ $\varepsilon \notin U = \{ab\}$

$\qquad \begin{align} Q_0 &= a(ab)^*(b \cup aa)Q_0 \cup baQ_0 \cup bb(ab)^*(b \cup aa)Q_0 \cup \varepsilon \\ &= ((a \cup bb)(ab)^*(b \cup aa) \cup ba)Q_0 \cup \varepsilon \\ &= ((a \cup bb)(ab)^*(b \cup aa) \cup ba)^* \qquad \text{(by Arden's Lemma)} \end{align}$

Assim, encontramos uma expressão regular para o idioma aceito pelo autômato acima, a saber

$\qquad \displaystyle ((a + bb)(ab)^*(b + aa) + ba)^*.$

Observe que é bastante sucinto (compare com o resultado de outros métodos), mas não é determinado exclusivamente; resolver o sistema de equações com uma sequência diferente de manipulações leva a outro equivalente! -- expressões.

Para uma prova do Lema de Arden, veja aqui .

— Rafael
fonte

1

Qual é a complexidade de tempo desse algoritmo? Existe um limite no tamanho da expressão produzida?

— jmite

@ jmite: Não faço ideia. Acho que não tentaria implementar isso (outros métodos parecem mais viáveis nesse sentido), mas usá-lo como um método de caneta e papel.

— Raphael

1

Aqui está uma implementação do Prolog desse algoritmo: github.com/wvxvw/intro-to-automata-theory/blob/master/automata/…, mas seu maybe_union/2predicado poderia usar mais trabalho (especialmente wrt, eliminando o prefixo comum) para criar expressões regulares mais organizadas. Outra maneira de ver esse método é entendê-lo como tradução de regex para gramática linear direita, onde idiomas com unificação semelhante a Prolog ou correspondência de padrão semelhante a ML criam ótimos transdutores, por isso não é apenas uma caneta e papel algoritmo :)

— wvxvw 23/09/15

Apenas uma pergunta. O ε na primeira equação é porque Qo é um estado inicial ou porque é um estado final? Da mesma forma, se eu tiver dois estados finais se aplica?

— Georgio3

Q_{i}

$Q_i$

q_{0}

$q_0$

28

Método algébrico de Brzozowski

Esse é o mesmo método descrito na resposta de Raphael , mas do ponto de vista de um algoritmo sistemático e, de fato, do algoritmo. É fácil e natural de implementar depois que você sabe por onde começar. Também pode ser mais fácil à mão se desenhar todos os autômatos for impraticável por algum motivo.

Ao escrever um algoritmo, lembre-se de que as equações devem ser sempre lineares para que você tenha uma boa representação abstrata das equações, algo que você pode esquecer quando estiver resolvendo manualmente.

A ideia do algoritmo

Não vou descrever como funciona, pois é bem feito na resposta de Raphael, que sugiro ler antes. Em vez disso, concentro-me em qual ordem você deve resolver as equações sem fazer muitos cálculos ou casos extras.

$X=A^*B$ $X=AX∪B$

X_{i} = B_{i} + A_{i, 1} X_{1} + \dots + A_{i, n} X_{n}

$X_i = B_i + A_{i,1}X_1 + … + A_{i,n}X_n$

$n$ $A_{i,j}$ $B_{i,j}$ $n$

X_{n} = B_{n} + A_{n, 1} X_{1} + \dots + A_{n, n} X_{n}

$X_n = B_n + A_{n,1}X_1 + … + A_{n,n}X_n$

e o governo de Arden nos dá:

X_{n} = A_{n, n}^{*} (B_{n} + A_{n, 1} X_{1} + \dots + A_{n, n - 1} X_{n - 1})

$X_n = A_{n,n}^* (B_n + A_{n,1}X_1 + … + A_{n,n-1}X_{n-1})$

$B'_n = A_{n,n}^* B_n$ $A'_{n,i}=A_{n,n}^*A_{n,i}$

X_{n} = B_{n}^{'} + A_{n, 1}^{'} X_{1} + \dots + A_{n, n - 1}^{'} X_{n - 1}

$X_n = B'_n + A'_{n,1}X_1 + … + A'_{n,n-1}X_{n-1}$

$X_n$ $i,j<n$

B_{i}^{'} = B_{i} + A_{i, n} B_{n}^{'}

$B'_i = B_i + A_{i,n}B'_n$

A_{i, j}^{'} = A_{i, j} + A_{i, n} A_{n, j}^{'}

$A'_{i,j} = A_{i,j} + A_{i,n}A'_{n,j}$

$X_n$ $n=1$

X_{1} = B_{1}^{'}

$X_1 = B'_1$

$A'_{1,i}$

O algoritmo

$q_1$ $m$ $B$

for i = 1 to m:
  if final(i):
    B[i] := ε
  else:
    B[i] := ∅

$A$

for i = 1 to m:
  for j = 1 to m:
    for a in Σ:
      if trans(i, a, j):
        A[i,j] := a
      else:
        A[i,j] := ∅

e então a solução:

for n = m decreasing to 1:
  B[n] := star(A[n,n]) . B[n]
  for j = 1 to n:
    A[n,j] := star(A[n,n]) . A[n,j];
  for i = 1 to n:
    B[i] += A[i,n] . B[n]
    for j = 1 to n:
      A[i,j] += A[i,n] . A[n,j]

a expressão final é então:

e := B[1]

Implementação

Mesmo que pareça um sistema de equações que pareça simbólico demais para um algoritmo, este é adequado para uma implementação. ~~Aqui está uma implementação desse algoritmo no Ocaml~~ (link quebrado) . Observe que, além da função brzozowski, tudo é para imprimir ou usar no exemplo de Raphael. Observe que há uma função surpreendentemente eficiente de simplificação de expressões regulares simple_re.

— jmad
fonte

4

Link is dead ...

— Columbo

Implementação em Javascript: github.com/devongovett/regexgen/blob/master/src/regex.js

— cakraww

24

Método de fechamento transitivo

Esse método é fácil de escrever na forma de um algoritmo, mas gera expressões regulares absurdamente grandes e é impraticável se você o fizer manualmente, principalmente porque isso é sistemático demais. É uma solução boa e simples para um algoritmo.

A ideia chave

$R^k_{i,j}$ $q_i$ $q_j$ $\{q_1, …, q_k\}$ $n$

$R_{i,j}$ $q_i$ $q_j$ $q_k$ $i,j$ $R'_{i,j}$ $q_k$

R_{i, j}^{'} = R_{i, j} + R_{i, k} . R_{k, k}^{*} . R_{k, j}

$R'_{i,j} = R_{i,j} + R_{i,k} . R_{k,k}^* . R_{k,j}$

$R$ $R^{k-1}$ $R'$ $R^k$

Exemplo

Usaremos o mesmo exemplo da resposta de Rafael . No início, você pode usar apenas as transições diretas.

$a$ $ε$ $(ε+a)$

R^{0} = [\begin{matrix} ε & a & b \\ b & ε & a \\ a & b & ε \end{matrix}]

$R^0 = \begin{bmatrix} ε & a & b \\ b & ε & a \\ a & b & ε \end{bmatrix}$

$q_0$ $q_1$ $R^0$ $R^1$

$q_2$ $q_2$ $R^1_{2,2} = R^0_{2,2} + R^0_{2,1} {R^0_{1,1}}^* R^0_{1,2} = ε + b ε^* a = ε + ba$

$q_2$ $q_2$ $q_1$ $ε$ $q_1$ $a$ $ε^*$ $b$

R^{1} = [\begin{matrix} ε & a & b \\ b & ε + b a & a + b b \\ a & b + a a & ε + a b \end{matrix}]

$R^1 = \begin{bmatrix} ε & a & b \\ b & ε+ba & a+bb \\ a & b+aa & ε+ab \end{bmatrix}$

$R^2$ $R^3$ $R^3_{1,1}$ $1$ $a$ $R^0$ $(∅+a)$ $a$ $R^1$ $((∅+a)+ε(ε)^*a)$

Algoritmo

Inicialização:

for i = 1 to n:
  for j = 1 to n:
    if i == j:
      R[i,j,0] := ε
    else:
      R[i,j,0] := ∅
    for a in Σ:
      if trans(i, a, j):
        R[i,j,0] := R[i,j,0] + a

Fechamento transitivo:

for k = 1 to n:
  for i = 1 to n:
    for j = 1 to n:
      R[i,j,k] := R[i,j,k-1] + R[i,k,k-1] . star(R[k,k,k-1]) . R(k,j,k-1)

$q_s$

e := ∅
for i = 1 to n:
  if final(i):
    e := e + R[s,i,n]

$(∅)^*+(a+(∅)^*)(ε)^*(a + ∅)$ $aa$

— jmad
fonte

Como converter autômatos finitos em expressões regulares?

Método de remoção de estado

A ideia chave

Exemplo

Algoritmo

Contras

Método

Exemplo

Método algébrico de Brzozowski

A ideia do algoritmo

O algoritmo

Implementação

Método de fechamento transitivo

A ideia chave

Exemplo

Algoritmo