Como mostrar que L = L (G)?

Especificar linguagens formais dando gramáticas formais é uma tarefa frequente: precisamos de gramáticas não apenas para descrever as línguas, mas também para analisá-las ou mesmo fazer a ciência apropriada . Em todos os casos, é importante que a gramática em questão esteja correta , ou seja, gere exatamente as palavras desejadas.

Podemos argumentar em alto nível por que a gramática é uma representação adequada do idioma desejado, omitindo uma prova formal. Mas e se estivermos em dúvida ou precisarmos de uma prova formal por algum motivo? Quais são as técnicas que podemos aplicar?

^{Isso deveria se tornar uma pergunta de referência . Portanto, tenha o cuidado de fornecer respostas gerais, apresentadas didaticamente, ilustradas por pelo menos um exemplo, mas que abranjam muitas situações. Obrigado!}

— Rafael
fonte

As gramáticas são objetos inerentemente recursivos, então a resposta parece óbvia: por indução. Dito isto, os detalhes geralmente são difíceis de acertar. Na sequência, descreverei uma técnica que permite reduzir muitas provas de correção gramatical a etapas mecânicas, desde que algum pré-processamento criativo seja feito. $\newcommand{\lang}[1]{\mathcal{L}(#1)} \newcommand{\sent}[1]{\vartheta(#1)} \newcommand{\derive}{\mathbin{\Rightarrow}} \newcommand{\derivestar}{\mathbin{\Rightarrow^*}} \newcommand{\nats}{\mathbb{N}}$

A idéia básica é não se restringir a palavras de gramática e idioma; é difícil entender a estrutura da gramática dessa maneira. Em vez disso, discutiremos sobre o conjunto de frases que a gramática pode criar. Além disso, dividiremos um objetivo de prova assustador em muitos objetivos pequenos que são mais tratáveis.

Deixe que uma gramática formal com não-terminais , os terminais , regras e a partir símbolo . Denotamos por o conjunto de sentenças que podem ser derivadas de dado , que é . O idioma gerado por é . Suponha que queremos mostrar que para alguns . $G=(N,T,\delta,S)$ $N$ $T$ $\delta$ $S \in N$ $\sent{G}$ $S$ $\delta$ $\alpha \in \sent{G} \iff S \derivestar \alpha$ $G$ $\lang{G} = \sent{G} \cap T^*$ $L = \lang{G}$ $L \subseteq T^*$

O ansatz

Aqui está como vamos fazer isso. Definimos para que $M_1, \dots, M_k \subseteq (N \cup T)^*$

$\displaystyle \sent{G} = \bigcup_{i=1}^k M_i$ e
$\displaystyle T^* \cap \bigcup_{i=1}^k M_i = L$ .

Enquanto 2. é geralmente claro por definição do , 1. requer algum trabalho sério. Os dois itens juntos implicam claramente conforme desejado. $M_i$ $\lang{G} = L$

Para facilitar a notação, vamos denotar . $M = \bigcup_{i=1}^k M_i$

A estrada rochosa

Existem duas etapas principais para realizar essa prova.

Como encontrar a (boa) ? $M_i$
Uma estratégia é investigar as fases pelas quais a gramática trabalha. Nem toda gramática é receptiva a essa idéia; em geral, este é um passo criativo. Ajuda se pudermos definir a gramática; com alguma experiência, poderemos definir gramáticas mais tratáveis com essa abordagem.
Como provar 1.?
Como em qualquer igualdade definida, existem duas direções.
- $\sent{G} \subseteq M$ : (estrutural) indução sobre as produções de . $G$
- $M \subseteq \sent{G}$ : Normalmente uma indução por , a partir do um que contém . $M_i$ $S$

Isso é o mais específico possível; os detalhes dependem da gramática e idioma em questão.

Exemplo

Considere o idioma

$\qquad \displaystyle L = \{ a^n b^n c^m \mid n,m \in \nats \}$

e a gramática com dada por $G = (\{S,A\}, \{a,b,c\}, \delta, S)$ $\delta$

$\qquad \begin{align} S &\to Sc \mid A \\ A &\to aAb \mid \varepsilon \end{align}$

para o qual queremos mostrar que . Quais são as fases pelas quais esta gramática trabalha? Bem, primeiro ele gera depois . Isso informa imediatamente nossa escolha de , a saber $L = \lang{G}$ $c^m$ $a^n b^n$ $M_i$

$\qquad \begin{align} M_0 &= \{Sc^m \mid m \in \nats \} \;, \\ M_1 &= \{ a^n A b^n c^m \mid m,n \in \nats \} \;, \\ M_2 &= \{ a^n b^n c^m \mid m,n \in \nats \} \;. \\ \end{align}$

Como e , o item 2. já está . Em direção a 1., dividimos a prova em duas partes, conforme anunciado. $M_2 = L$ $M_0 \cap T^* = M_1 \cap T^* = \emptyset$

$\mathbf{\sent{G} \subseteq M}$

Realizamos indução estrutural ao longo das regras do . $G$

IA: Como , ancoramos com sucesso. $S = Sc^0 \in M_0$

IH: Suponha por algum conjunto de sentenças que também sabem . $X \subseteq \sent{G}$ $X \subseteq M$

IS: Seja arbitrário. Temos de mostrar que qualquer forma tem e tudo o que regra é aplicada seguinte, nós não deixamos . Fazemos isso por distinção completa de casos. Pela hipótese de indução, sabemos que (exatamente) um dos seguintes casos se aplica: $\alpha \in X \subseteq \sent{G} \cap M$ $\alpha$ $M$

w = S c m m ∈ N M , ou seja, para alguns . Duas regras podem ser aplicadas, ambas derivadas de uma frase em :
- $Sc^m \derive Sc^{m+1} \in M_0$ e
- $Sc^m \derive Ac^m = a^0Ab^0c^m \in M_1$ .
w = a n A b n c m m , n ∈ N , ou seja, por alguns :
- $w \derive a^{n+1}Ab^{n+1}c^m \in M_1$ e
- $w \derive a^nb^nc^m \in M_2$ .
$w \in M_3$ : como , nenhuma outra derivação é possível. $w \in T^*$

Como cobrimos com sucesso todos os casos, a indução está completa.

$\mathbf{\sent{G} \supseteq M}$

Realizamos uma prova (simples) por . Observe como encadeamos as provas para que "mais tarde" possa ancorar usando o "anterior" . $M_i$ $M_i$ $M_i$

$M_1$ : Realizamos uma indução sobre , ancorando em e usando na etapa. $m$ $Sc^0 = S$ $S \to Sc$
$M_2$ : em um valor arbitrário e induzimos sobre . em , usando a pela prova anterior. A etapa progride via . $m$ $n$ $Ac^m$ $S \derivestar Sc^m \derive Ac^m$ $A \to aAb$
$M_3$ : Para arbitrários usamos a prova anterior para . $m,n \in \nats$ $S \derivestar a^nAb^nc^m \derive a^nb^nc^m$

Isso conclui a segunda direção da prova do 1., e terminamos.

Podemos ver que exploramos fortemente que a gramática é linear . Para gramáticas não lineares, precisamos de com mais de um parâmetro variável (na (s) prova (s)), que pode se tornar feia. Se temos controle sobre a gramática, isso nos ensina a mantê-la simples. Considere como exemplo dissuasivo esta gramática que é equivalente a : $M_i$ $G$

$\qquad \begin{align} S &\to aAbC \mid \varepsilon \\ A &\to aAb \mid \varepsilon \\ C &\to cC \mid \varepsilon \end{align}$

Exercício

Dê uma gramática para

$\qquad L = \{ b^k a^l (bc)^m a^n b^o \mid k,l,m,n,o \in \nats, k \neq o, 2l = n, m \geq 2 \}$

e provar sua correção.

Se você tiver problemas, uma gramática:

Considere com produções $G = (\{S,B_r,B_l,A,C\}, \{a,b,c\}, \delta, S)$

$\quad \begin{align} S &\to bSb \mid B_l \mid B_r \\ B_l &\to bB_l \mid bA \\ B_r &\to B_r b \mid Ab \\ A &\to aAaa \mid C \\ C &\to bcC \mid bcbc \end{align}$

e : $M_i$

$\quad\begin{align} M_0 &= \{ b^i S b^i \mid i \in \nats \} \\ M_1 &= \{ b^i B_l b^o \mid o \in \nats, i \geq o \} \\ M_2 &= \{ b^k B_r b^i \mid k \in \nats, i \geq k \} \\ M_3 &= \{ b^k a^i A a^{2i} b^o \mid k,o,i \in \nats, k \neq o \} \\ M_4 &= \{ b^k a^l (bc)^i C a^{2l} b^o \mid k,o,l,i \in \nats, k \neq o \} \\ M_5 &= L \end{align}$

E as gramáticas não lineares?

O recurso caracterizador da classe de linguagens livres de contexto é a linguagem Dyck : essencialmente, toda linguagem sem contexto pode ser expressa como a interseção de uma linguagem Dyck e de uma linguagem regular. Infelizmente, a linguagem Dyck não é linear, ou seja, não podemos fornecer gramática inerentemente adequada a essa abordagem.

Podemos, é claro, ainda definem e fazer a prova, mas é obrigado a ser mais árdua com induções aninhados e não o que. Há uma maneira geral que conheço que pode ajudar até certo ponto. Alteramos a ansatz para mostrar que geramos pelo menos todas as palavras necessárias e que geramos a quantidade certa de palavras (por comprimento). Formalmente, mostramos que $M_i$

$\displaystyle \sent{G} \supseteq L$ e
$\displaystyle |\lang{G} \cap T^n| = |L \cap T^n|$ para todos os . $n \in \nats$

Dessa forma, podemos nos restringir à direção "fácil" da ansatz original e explorar a estrutura da linguagem, ignorando os recursos complicados que a gramática pode ter. Obviamente, não há almoço grátis: temos a tarefa totalmente nova de contar as palavras que gera para cada . Para nossa sorte, isso geralmente é tratável; veja aqui e aqui para mais detalhes¹. Você pode encontrar alguns exemplos na minha tese de bacharel . $G$ $n \in \nats$

Para gramáticas ambíguas e sem contexto, receio que estamos de volta à ansatz one e thinking caps.

Ao usar esse método específico de contagem, obtemos como bônus que a gramática é inequívoca. Por sua vez, isso também significa que a técnica precisa falhar em gramáticas ambíguas, pois nunca podemos provar 2.

— Rafael
fonte