Apakah ada pendekatan algoritmik untuk mengidentifikasi bahwa tanggal yang diberikan dalam paragraf berkorelasi dengan peristiwa (frasa) tertentu dalam paragraf?
Contoh, pertimbangkan paragraf berikut:
Pada Juni 1970, pemimpin besar itu mengambil sumpah. Tetapi baru setelah Mei 1972, setelah kematian Menteri Negara, dia mengambil alih tampuk kekuasaan negara. Sementara ia menikmati dukungan rakyat hingga Pertengahan 1980, pengaruhnya mulai menurun sesudahnya.
Apakah ada algoritma (deterministik atau stokastik) # yang dapat menghasilkan 2-tupel (tanggal, peristiwa), di mana peristiwa tersebut tersirat, oleh paragraf, telah terjadi pada tanggal ? Dalam kasus di atas:
- (Juni 1970, pemimpin besar bersumpah)
(Mei 1972, mengambil alih kendali)
atau lebih baik lagi
- (Mei 1972, pemimpin besar mengambil alih kendali)
- (1980, jatuh pengaruh)
# Selain itu
algorithms
data-mining
natural-language-processing
periksa123
sumber
sumber
(<= May 1972, death of the Minister of State)
atau(<= Mid-1980, [the great leader] enjoyed popular support)
.Jawaban:
Secara umum, masalah mengidentifikasi tanggal dan penanda temporal lainnya dalam teks disebut masalah penggalian referensi temporal . Pencarian yang tertaut akan membawa Anda ke makalah yang terkait dengan ini.
sumber
Karena Anda meminta pendekatan algoritmik, saya akan sama keras kepala dengan algoritma. Saya minta maaf untuk memperlakukan pertanyaan ini seperti ini, tetapi karena itu tidak tampak seperti masalah teoritis yang kompleks, saya akan mensintesis pendekatan yang mungkin.
Pertanyaan: dapatkah Anda memberi saya definisi algoritmik tentang tanggal dan peristiwa tertentu?
Jika kamu bisa: Karena definisi Anda adalah algoritmik, maka ini mungkin semacam tata bahasa formal , dan masalah Anda adalah untuk menyelaraskan tata bahasa itu untuk menangkap setiap kasus yang perlu Anda pertimbangkan. (Saya tertarik jika Anda dapat memberi saya definisi pasti yang bukan tata bahasa formal)
Jika Anda tidak bisa: maka setidaknya Anda bisa memberikan contoh. Baik-baik saja maka. Pendekatan terbaik - dan satu-satunya yang dapat saya pikirkan - adalah algoritma pembelajaran mesin, yang harus Anda latih untuk mengenali tanggal dan acara Anda. (Menggunakan korpus kalimat yang dianotasi dengan tangan) Namun ini cukup berlebihan dibandingkan dengan beberapa regexp buatan tangan besar yang mungkin akan melakukan pekerjaan itu. Jika Anda benar-benar ingin melakukannya, saya pikir yang paling efisien adalah jenis regexp yang diberikan sebagai parameter untuk algoritma pembelajaran tetapi Anda lebih baik bertanya pada pakar pembelajaran mesin.
Semoga beruntung dengan ini, Jauh lebih mudah untuk membicarakannya (dalam kedua kasus).
sumber