Ekspresifitas dari ekspresi reguler modern

9

Baru-baru ini saya berdiskusi dengan seorang teman tentang sebuah situs web yang mengusulkan tantangan regex, terutama mencocokkan sekelompok kata dengan properti khusus. Dia sedang mencari regex yang cocok dengan string seperti di ||||||||mana jumlah |prima. Saya segera mengatakan kepadanya bahwa tidak akan pernah berhasil karena jika bahasa seperti itu biasa, terjemahan lemma pemompaan akan memberikan fakta bahwa untuk prime cukup besar, itu ada sehingga p + nk adalah prima untuk semua n \ geq -1 , dan ini sepertinya tidak akan terjadi sama sekali (partisi ulang bilangan prima, hal-hal sepele dari properti yang tidak diketahui dan dihancurkan, ...)pkpp+nkn1

Tapi kemudian seseorang datang dengan solusi: TIDAK MATCHING (||+?)\1+ Ungkapan ini mencoba untuk mencocokkan kelompok capture (yang dapat ||, |||, ||||dan sebagainya dari k2 kejadian dari |) n2 kali. Jika cocok, itu berarti bahwa angka yang diwakili oleh string dapat dibagi oleh k , dan karenanya tidak prima. Kalau tidak demikian.

Dan saya merasa bodoh, karena menjadi jelas bahwa pengelompokan dan backreference memungkinkan regex menjadi jauh lebih ekspresif daripada ... ekspresi reguler, dalam pengertian teoretis. Sekarang mereka bahkan menambahkan lookarounds dan operator lain yang saya tidak tahu ketika saya melakukan regex nyata.

Menurut Wikipedia, bahkan lebih ekspresif bahasa yang dihasilkan oleh tata bahasa bebas konteks. Jadi inilah pertanyaan saya:

  • dapatkah kita mewakili bahasa aljabar apa pun (dihasilkan dari tata bahasa bebas konteks) dengan mesin ekspresi reguler modern
  • adakah deskripsi yang lebih umum, atau setidaknya batas atas pada kompleksitas jenis bahasa apa yang dapat dijelaskan oleh regex modern?

Lebih pragmatis, apakah ada teori serius di baliknya atau kita hanya menambahkan fitur baru karena setiap kali tampaknya dapat diterapkan pada blok awal ekspresi reguler nyata berdasarkan automata terbatas?

Saya tahu bahwa "regex modern" tidak terlalu spesifik sementara pertanyaannya adalah, tapi maksud saya setidaknya dengan referensi, dan mungkin lebih. Tentu saja, jika Anda memiliki jawaban parsial dengan asumsi batasan tertentu pada bahasa "regex modern" ini, jangan ragu untuk mempostingnya.

yago
sumber
1
Pertanyaan terkait . Sepertinya saya ingat bahwa setidaknya beberapa rasa RegExp sudah selesai. Artikel ini dapat menjadi titik awal yang valid untuk penelitian literatur.
Raphael
@Raphael terima kasih banyak, artikel itu sepertinya menjawab sebagian besar interogasi saya
yago
Alasan yang lebih kuat mengapa tidak semua p + nk dapat menjadi prima adalah bahwa ketika n = p, Anda memiliki p + nk = p (1 + k).
Nathan FD

Jawaban: