Bukti lemma pemompaan untuk bahasa bebas konteks menggunakan pushdown automata

21

The lemma memompa untuk bahasa reguler dapat dibuktikan dengan mempertimbangkan negara yang terbatas robot yang mengakui bahasa dipelajari, memetik string dengan lebih panjang daripada jumlah kantor negara, dan menerapkan prinsip mengesampingkan. Namun, memompa lemma untuk bahasa bebas konteks (serta lemma Ogden yang sedikit lebih umum), dibuktikan dengan mempertimbangkan tata bahasa bebas konteks dari bahasa yang dipelajari, memetik string yang cukup panjang, dan melihat pohon parse.

Mengingat kesamaan dari dua lemma yang memompa, Anda akan mengharapkan yang bebas konteks juga dapat dibuktikan dengan cara yang sama dengan yang biasa dengan mempertimbangkan otomat pushdown yang mengenali bahasa, daripada tata bahasa. Namun, saya tidak berhasil menemukan referensi ke bukti seperti itu.

Maka pertanyaan saya: apakah ada bukti lemma pemompaan untuk bahasa bebas konteks yang hanya melibatkan pushdown automata dan bukan tata bahasa?

fl.formal-languages automata-theory proofs grammars a3nm
sumber

16

Saya memikirkan masalah ini lagi, dan saya pikir saya punya bukti lengkap. Ini sedikit lebih rumit dari yang saya perkirakan. Komentar sangat disambut! Pembaruan: Saya menyerahkan bukti ini di arXiv, kalau-kalau ini berguna untuk seseorang: http://arxiv.org/abs/1207.2819

$\DeclareMathOperator{\fp}{fp}$ $\DeclareMathOperator{\lp}{lp}$ $\newcommand{\fpp}[1]{\widehat{\fp{#1}}}$ $\newcommand{\lpp}[1]{\widehat{\lp{#1}}}$

Biarkan menjadi bahasa bebas konteks dari alfabet . Biarkan menjadi otomat pushdown yang mengenali , dengan tumpukan alfabet . Kami dilambangkan denganjumlah negara dari . Tanpa kehilangan keumuman, kita dapat mengasumsikan bahwa transisi dari melambangkan simbol paling atas dari stack dan tidak mendorong simbol pada stack atau mendorong pada stack simbol paling atas sebelumnya dan beberapa simbol lainnya. $L$ $\Sigma$ $A$ $L$ $\Gamma$ $|A|$ $A$ $A$

Kami mendefinisikandan panjang pemompaan, dan akan menunjukkan bahwa semua sedemikian sehingga memiliki dekomposisi bentuk sehingga , dan . $p' = |A|^2 |\Gamma|$ $p = |A| (|\Gamma|+1)^{p'}$ $w \in L$ $|w| > p$ $w = u v x y z$ $|vxy| \leq p$ $|vy| \geq 1$ $\forall n \geq 0, u v^n x y^n z \in L$

Biarkan sedemikian sehingga . Biarkan menjadi jalur penerimaan dengan panjang minimal untuk (direpresentasikan sebagai urutan transisi ), kami menyatakan panjangnya dengan. Kita dapat mendefinisikan, untuk, ukuran tumpukan di posisi dari jalur penerimaan. Untuk semua , kita mendefinisikan tingkat- lebih dari sebagai kumpulan tiga indeks dengan sedemikian rupa: $w \in L$ $|w| > p$ $\pi$ $w$ $A$ $|\pi|$ $0 \leq i < |\pi|$ $s_i$ $i$ $N > 0$ $N$ $\pi$ $i, j, k$ $0 \leq i < j < k \leq p$

$s_i = s_k, s_j = s_i + N$
untuk semua sehingga , $n$ $i \leq n \leq j$ $s_i \leq s_n \leq s_j$
untuk semua sedemikian rupa sehingga , . $n$ $j \leq n \leq k$ $s_k \leq s_n \leq s_k$

(Untuk contohnya, lihat gambar untuk case 2 di bawah ini yang menggambarkan tingkat- .) $N$

Kami mendefinisikan tingkat dari semaksimal yang sehingga memiliki -tingkat. Definisi ini dimotivasi oleh properti berikut: jika ukuran stack di atas path menjadi lebih besar dari level , maka simbol stack lebih dari level dalam tidak akan pernah muncul. Kita sekarang akan membedakan dua kasus: baik , dalam hal ini kita tahu bahwa konfigurasi yang sama untuk keadaan otomat dan simbol paling atas dari tumpukan ditemui dua kali dalam langkah pertama dari , atau $l$ $\pi$ $N$ $\pi$ $N$ $\pi$ $l$ $l$ $l < p'$ $l$ $p+1$ $\pi$ $l \geq p'$ , dan harus ada posisi susun dan unstacking yang dapat diulang beberapa kali, dari mana kita membangun dan . $v$ $y$

Kasus 1. . Kami mendefinisikan konfigurasi sebagai pasangan kondisi dan urutan stack simbol (di mana tumpukan dengan ukuran kurang dari dengan diwakili dengan melapisi mereka ke dengan simbol kosong khusus, itulah sebabnya kami menggunakan saat mendefinisikan ). Menurut definisi, ada konfigurasi seperti itu, yang kurang dari . Oleh karena itu, dalam langkah pertama dari , konfigurasi yang sama ditemukan dua kali pada dua posisi yang berbeda, katakanlah $l < p'$ $A$ $A$ $l$ $l$ $l$ $|\Gamma| + 1$ $p$ $|A| (|\Gamma| + 1)^l$ $p$ $p+1$ $\pi$ $i < j$ . Dilambangkan dengan (resp. ) posisi huruf dibaca pada langkah (resp. ) dari . Kami memiliki . Oleh karena itu, kita dapat memperhitungkan dengan , , , . (Oleh kami menunjukkan huruf dari inklusif ke eksklusif.) Dengan konstruksi, $\widehat{i}$ $\widehat{j}$ $w$ $i$ $j$ $\pi$ $\widehat{i} \leq \widehat{j}$ $w = u v x y z$ $y z = \epsilon$ $u = w_{0 \cdots \widehat{i}}$ $v = w_{\widehat{i} \cdots \widehat{j}}$ $x = w_{\widehat{j} \cdots |w|}$ $w_{x \cdots y}$ $w$ $x$ $y$ $|vxy| \leq p$ .

Kita juga harus menunjukkan bahwa , tetapi ini mengikuti dari pengamatan kami di atas: susun simbol yang lebih dalam dari tidak pernah muncul, jadi tidak ada cara untuk membedakan konfigurasi yang sama sesuai dengan definisi kami, dan jalur penerimaan untuk dibangun dari dengan mengulangi langkah-langkah antara dan , kali. $\forall n \geq 0, u v^n x y^n z = u v^n x \in L$ $l$ $u v^n x$ $w$ $i$ $j$ $n$

Akhirnya, kami juga memiliki , karena jika , maka, karena kita memiliki konfigurasi yang sama pada langkah dan di , $|v| > 0$ $v = \epsilon$ $i$ $j$ $\pi$ $\pi' = \pi_{0 \cdots i} \pi_{j \cdots |\pi|}$ would be an accepting path for $w$ , contradicting the minimality of $\pi$ .

(Note that this case amounts to applying the pumping lemma for regular languages by hardcoding the topmost $l$ stack symbols in the automaton state, which is adequate because $l$ is small enough to ensure that $|w|$ is larger than the number of states of this automaton. The main trick is that we must adjust for $\epsilon$ -transitions.)

Case 2. $l \geq p'$ . Let $i, j, k$ be a $p'$ -level. To any stack size $h$ , $s_i \leq h \leq s_j$ , we associate the last push $\lp(h) = \max(\{y \leq j | s_y = h\})$ and the first pop $\fp(h) = \min(\{y \geq j | s_y = h\})$ . By definition, $i \leq \lp(h) \leq j$ and $j \leq \fp(h) \leq k$ . Here is an illustration of this construction. To simplify the drawing, I omit the distinction between the path positions and word positions which we will have to do later.

Illustration of the construction for case 2. To simplify the drawing, the distinction between the path positions and word positions are ommitted.

We say that the full state of a stack size $h$ is the triple formed by:

the automaton state at position $\lp(h)$
the topmost stack symbol at position $\lp(h)$
the automaton state at position $\fp(h)$

There are $p'$ possible full states, and $p' + 1$ stack sizes between $s_i$ and $s_j$ , so, by the pidgeonhole principle, there exist two stack sizes $g, h$ with $s_i \leq g < h \leq s_j$ such that the full states at $g$ and $h$ are the same. Like in Case 1, we define by $\lpp(g)$ , $\lpp(h)$ , $\fpp(h)$ and $\fpp(g)$ the positions of the last letters of $w$ read at the corresponding positions in $\pi$ . We factor $w = u v x y z$ where $u = w_{0 \cdots \lpp(g)}$ , $v = w_{\lpp(g) \cdots \lpp(h)}$ , $x = w_{\lpp(h) \cdots \fpp(h)}$ , $y = w_{\fpp(h) \cdots \fpp(g)}$ , and $z = w_{\fpp(g) \cdots |w|}$ .

This factorization ensures that $|vxy| \leq p$ (because $k \leq p$ by our definition of levels).

We also have to show that $\forall n \geq 0, u v^n x y^n z \in L$ . To do so, observe that each time that we repeat $v$ , we start from the same state and the same stack top and we do not pop below our current position in the stack (otherwise we would have to push again at the current position, violating the maximality of $\lp(g)$ ), so we can follow the same path in $A$ and push the same symbol sequence on the stack. By the maximality of $\lp(h)$ and the minimality of $\fp(h)$ , while reading $x$ , we do not pop below our current position in the stack, so the path followed in the automaton is the same regardless of the number of times we repeated $v$ . Now, if we repeat $w$ as many times as we repeat $v$ , since we start from the same state, since we have pushed the same symbol sequence on the stack with our repeats of $v$ , and since we do not pop more than what $v$ has stacked by minimality of $\fp(g)$ , we can follow the same path in $A$ and pop the same symbol sequence from the stack. Hence, an accepting path from $u v^n x y^n z$ can be constructed from the accepting path for $w$ .

Finally, we also have $|vy| > 1$ , because like in case 1, if $v = \epsilon$ and $y = \epsilon$ , we can build a shorter accepting path for $w$ by removing $\pi_{\lp(g)\cdots\lp(h)}$ and $\pi_{\fp(h)\cdots\fp(g)}$ .

Hence, we have an adequate factorization in both cases, and the result is proved.

(Credit goes to Marc Jeanmougin for helping me with this proof.)

a3nm
sumber

7

Yes it is possible. We could use the notion of surface configurations; they were introduced by Cook a long time back. With this it should be quite easy to get a version of pumping lemma out.

As to surface configurations, almost any paper on LogCFL should carry its definition. Here is a recent paper and here is a thesis

Maybe someone more energetic can spell out the details!

V Vinay
sumber

Thanks for answering! Yes, it is pretty natural to look at the combination of automaton state and topmost stack symbol. I am still thinking about this problem, though, and I can't manage to figure out the details... Help is appreciated. :-)

a3nm

3

For completeness a reference to a proof in this direction.

A.Ehrenfeucht, H.J.Hoogeboom, G.Rozenberg: Coordinated pair systems. I: Dyck words and classical pumping RAIRO, Inf. Théor. Appl. 20, 405-424 (1986)

Abstract. The notion of a coordinated pair system [...] corresponds very closely to (is another formulation of) the notion of a push-down automaton. In this paper we [...] investigate the possibility of obtaining pumping properties of context-free languages via the analysis of computations in cp systems. In order to do this we analyze the combinatorial structure of Dyck words. The properties of Dyck words we investigate stem from the combinatorial analysis of computations in cp systems. We demonstrate how this correspondence can be used for proving the classical pumping lemma.

Hendrik Jan
sumber

1

When discussing this problem with Géraud Sénizergues, he pointed me this paper by Sakarovitch that already proves this result. The proof seems to date back to this paper by Ogden.

References:

Sakarovitch, Jacques. Sur une propriété d’itération des langages algébriques déterministes. (French. English summary). Math. Systems Theory 14 (1981), no. 3, 247–288.
William F. Ogden. 1969. Intercalation theorems for stack languages. In Proceedings of the first annual ACM symposium on Theory of computing (STOC '69).

Lamine
sumber

Bukti lemma pemompaan untuk bahasa bebas konteks menggunakan pushdown automata

Jawaban: