Apakah ada perangkat lunak (atau kode semu) yang dapat secara otomatis memindai bagian teks (baik disisipkan ke dalam alat, atau membaca dari .doc / .pdf) dan mengidentifikasi data kutipan menggunakan format standar? Data kemudian akan dipecah menjadi bidang konstituennya dan diekspor dalam format XML, CSV, atau format data terstruktur lainnya. Saya telah melihat cb2Bib tetapi hanya mampu mengekstraksi tahun dari referensi gaya Harvard, yang tidak mencukupi.
18
Jawaban:
Lihatlah daftar Parser Kutipan yang dapat menghasilkan XML dari teks input:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (dalam mode pemeliharaan per 1 Agustus 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
Dengan freecite, Anda dapat menggunakan
curl
perintah untuk mengirim kutipan sebagai berikut (dalam PHP):sumber
Saat ini (2017) proyek Open-Source paling aktif yang mengimplementasikan ini tampaknya adalah Anystyle Parser (versi terakhir 07-2016). Itu dapat digunakan melalui antarmuka web, API, atau diunduh sebagai RubyGem.
Mereka secara eksplisit menyebutkan di situs web mereka bahwa implementasinya terinspirasi oleh ParsCit (versi terakhir 2013?) Dan FreeCite (komitmen terakhir 2009).
Juga bentuk situs web mereka:
Itu adalah fitur yang benar-benar keren, yang menjadikan ini implementasi yang paling menarik (imho). Pelatihan tampaknya cukup mudah, seperti yang dijelaskan dalam dokumentasi API . Anda hanya memberikan beberapa hasil yang dikoreksi secara manual, dan dan jalankan
Anystyle.parser.train
perintah. Saya tidak yakin apakah ParsCit dan FreeCite juga mendukung ini, tetapi jika tidak, sepertinya ini adalah perbedaan fitur yang sangat besar bagi saya.sumber
Cobalah alat seperti Regex Buddy atau Expresso .
Jika Anda bukan seorang programmer, Ekspresi Reguler mungkin agak menakutkan, tetapi sebenarnya tidak terlalu sulit, terutama dengan alat yang layak seperti salah satu di atas.
Berikut adalah contoh seseorang yang menggunakan Ekspresi Reguler untuk mengekstraksi kutipan:
Kutipan parsing ekspresi reguler
sumber
Mendeley seharusnya bisa melakukan ini. Itu dapat mengimpor PDF dan kemudian mengekspor metadata ke BibTeX, RIS dan EndNote XML. Ini gratis untuk diunduh dan bersifat lintas platform.
Sunting: Saya menguji ini pada beberapa dokumen. Impor PDF tampaknya berfungsi dengan baik untuk referensi yang diformat dengan benar. Untuk dokumen yang saya buat menggunakan LaTeX, semua referensi dengan penulis dalam bentuk "Smith, J." atau "J. Smith", dll., diimpor dengan baik. Jika penulisnya adalah perusahaan (satu kata), atau rujukannya tidak lengkap, itu tidak berfungsi juga. Referensi yang diekstraksi dapat dengan mudah diedit dan diekspor ke BibTeX, dll.
sumber
Saya telah melihat program Westlaw melakukan itu untuk kutipan hukum, tapi itu mungkin bukan yang Anda cari. Manajer Referensi mungkin melakukan sesuatu seperti itu untuk format akademik, tetapi saya tidak pernah menggunakannya.
sumber
Coba http://www.crossref.org/guestquery/#stqsearch
Yang ini mampu secara otomatis mem-parsing teks referensi Anda dan menawarkan tautan ke artikel online.
sumber
Zotero adalah plugin untuk firefox yang melakukan ini untuk konten web. Tidak yakin apakah ada alat serupa untuk dokumen / pdf
sumber
Ini mungkin milik lebih sebagai komentar untuk @Abhinav, tetapi zotero pasti hanya menangani data terstruktur, seperti yang Anda temukan dijelaskan di sini:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Peretasan yang menarik mungkin dengan mencoba menulis sebuah program yang menggunakan setiap kutipan sebagai permintaan pencarian di database favorit Anda, kemudian menggunakan sesuatu seperti zotero untuk menghasilkan informasi referensi. Anda juga dapat mengunduh informasi terstruktur dari layanan seperti citeUlike. Beri tahu saya jika Anda akhirnya melakukan hal seperti itu! (pasang di github jika Anda melakukannya;).
sumber