Saya berakhir di tempat kakek saya akhir pekan lalu. Nenek saya mengeluarkan buku sejarah keluarganya yang besar (~ 1400 halaman) ini sekitar tahun 1630. Kutu buku raksasa seperti saya, saya pikir akan licin untuk memiliki semua informasi yang disimpan dalam database dan tersedia dari web. Saya dapat menangani semua pemrograman web dan ekspresi reguler dan apa yang tidak, tetapi yang saya tidak tahu adalah cara terbaik untuk mendapatkan teks dari buku ke komputer.
Saya tahu beberapa jenis OCR akan diperlukan, dari sedikit riset yang telah saya lakukan, sepertinya pilihan saya adalah:
- ambil gambar setiap halaman dengan kamera, lalu proses gambar dengan perangkat lunak OCR
- gunakan pemindai untuk memindai setiap halaman, lalu proses dengan perangkat lunak OCR
- gunakan beberapa jenis alat genggam, seperti ini .
Adakah yang punya ide tentang cara terbaik untuk mengatasi masalah ini? Saya tidak ingin menghancurkan buku itu, karena sejauh yang saya tahu, itu tidak dapat diganti. Ini mungkin satu-satunya waktu saya akan memindai buku besar, jadi saya tidak berpikir saya ingin menghabiskan lebih dari $ 250 untuk semua jenis perangkat. Saya tidak keberatan dengan upaya manual di sini (saya menyadari ini kemungkinan besar akan memakan waktu berbulan-bulan), tetapi saya ingin menemukan metode yang paling efisien.
Catatan tentang buku itu: Baru berusia sekitar 20 tahun, jadi dalam kondisi yang cukup baik. Ini monokrom dan halaman belum mulai menguning. Karena begitu besar, saya khawatir tentang kemungkinan bayangan ketika teks mendekati ikatan.
Jawaban:
Saya menemukan ini di Lifehacker beberapa waktu lalu, dan itu telah menjadi salah satu proyek DIY terbaik saya sejak itu.
Ganti iPhone dengan kamera atau pencitraan apa pun, dan Anda mendapatkan setumpuk resolusi tinggi yang bagus yang siap untuk Anda gunakan OCR dengan perangkat lunak apa pun, bahkan (urk!) MS Office ...;)
Murah. Efektif. DIY. Anda tidak bisa mengalahkan ide seperti ini.
EDIT: Komentar mengangkat beberapa poin tentang bayangan, keriting halaman, dll. Cukup mudah diselesaikan bagi siapa saja yang memiliki teks pustaka yang disalin foto.
Tambahkan beberapa sumber cahaya untuk menerangi buku, dan hilangkan bayangan.
miringkan buku pada 90 derajat ke halaman tidak meringkuk ke arah binding di tengah. Ini juga menjaga ikatan.
Saya akan melihat apakah saya bisa memberikan contoh dan mengaturnya sendiri.
EDIT 2: contoh yang diunggah tentang bagaimana Anda harus memegang buku, dan juga perhatikan sumber cahaya dari kiri.
sumber
Dari yang saya tahu, ABBYY membuat perangkat lunak OCR terbaik, tetapi tidak gratis. Anda harus mencoba menggunakan versi percobaan ABBYY FineReader , mungkin itu akan membantu Anda.
sumber
Anda harus mengambil gambar itu entah bagaimana. Berbagai layanan ada untuk melakukan ini untuk Anda. Anda juga akan membutuhkan seseorang yang terbiasa dengan konten teks untuk mengoreksi karena OCR belum sempurna. Apalagi dengan tulisan tangan apa saja.
Yang lain sedang mendiskusikan pertanyaan Anda di sini: http://ask.metafilter.com/92506/scan-my-books
Beberapa perusahaan akan melakukan ini untuk Anda: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Beberapa Perangkat Lunak Bebas: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
sumber
Untuk proyek besar dan penting bagi Anda dan keluarga Anda seperti ini, Pemindai Buku DIY mungkin cara yang tepat, beberapa desain bahkan pergantian halaman olahraga - http://www.diybookscanner.org/ Yang ini tidak mendukung OCR secara asli , tetapi menembak 600 halaman per jam dan Anda dapat menjalankannya melalui OCR setelah fakta http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
sumber
Anda mungkin ingin melihat apakah sebuah universitas di dekat Anda memiliki pemindai seluruh buku dan kemudian meminta / menyuap seorang siswa untuk meletakkan buku Anda melalui itu.
sumber
Saya akan merekomendasikan pemindai flatbed untuk pemindaian buku atau pemindai seluruh buku seperti yang disebutkan oleh Chris.
Jika Anda bisa, dapatkan gambar Anda dikompilasi ke dalam format TIFF karena itu adalah standar industri ketika datang ke sistem manajemen dokumen.
Untuk melakukan OCR, saya akan merekomendasikan OCR tesseract karena itu adalah kerangka kerja Google diuraikan untuk proyek buku mereka.
sumber
walaupun kedengarannya menggoda untuk mengotomatiskan prosesnya, Anda mungkin ingin menginvestasikan lebih banyak waktu dan pekerjaan karena buku khusus ini adalah masalah pribadi. OCR akan melakukan sebagian besar tetapi Anda harus mengoreksi halaman demi halaman dan membandingkannya dengan yang asli. perlu diingat, kesalahan penulis adalah bagian dari kesepakatan, jangan memperbaikinya (buat catatan kaki jika Anda merasa sangat cenderung). Luangkan waktu Anda, jangan taruh diri Anda di bawah tekanan, pemindaian buku adalah pekerjaan keledai tetapi ketelitian membayar dan Anda akan berakhir dengan salinan digital yang baik dari kronis keluarga Anda. semoga sukses dengan usaha Anda :)
sumber
Di tempat kerja kami menggunakan pemindai buku Plustek Optibook 3600 yang sekitar $ 250 .
Ini pada dasarnya merupakan pemindai flat bed tetapi dengan pelat kaca mengarah ke tepi pemindai sehingga halaman buku dapat diletakkan rata di atas piring. Ini menghilangkan bayangan tulang belakang dan menghindari buku yang merusak.
sumber