Batch OCR untuk banyak file PDF (belum OCR) [Tutup]

9

Saya menggunakan Pencarian Desktop Google (saya di Vista) dan tidak semua file PDF saya dikenali di folder arsip saya. Itu normal karena " file PDF yang berisi gambar yang dipindai " tidak diindeks ( http://desktop.google.com/support/bin/answer.py?hl=id&answer=90651 )

Jadi saya ingin OCR banyak file PDF saya yang belum OCR. Tujuan saya: Saya memberikan program folder dan mencari sendiri di subfolder file PDF yang perlu dikonversi menjadi file PDF-OCRed.

Catatan: Di masa lalu, jika file PDF dilindungi kata sandi, saya menghapus kata sandi dengan alat batch lain (berbayar): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Adakah (tidak terlalu mahal) ide?

Saya sudah mencoba: Finereader 6 pro pada xp pada saat itu, tetapi tidak ada prosesor batch yang disertakan ... Paperfile paperfile.net yang menggunakan Tesseract http://code.google.com/p/tesseract-ocr/ . Tapi OCR hanya PDF ke teks, bukan PDF ke PDF! Ada juga proyek lain http://code.google.com/p/ocropus/

Terima kasih sebelumnya ;)

Erb
sumber
Satu tahun kemudian pembaruan: Halo, Rupanya perangkat lunak "ABBYY Hot Folder & Scheduling", hanya disertakan dalam ABBYY FineReader (> v. 9.0) Edisi lisensi Perusahaan & Situs, dapat membantu (saya tidak mencobanya: $ 600!)! Juga Tesseract harus bekerja pada jendela sekarang (tanpa keberhasilan bagi saya sekarang; ()!
Erb
Juga, ABBYY FineReader (> v. 9.0) edisi Pro memiliki tugas otomasi: Anda memilih folder utama + subfoldernya, dan melakukan tugasnya. Tetapi masalah utamanya adalah membuka semua pdf sekaligus (!!), lalu membacanya (= ocr) dan kemudian menyimpan file pdf unik! Jadi, jika Anda memiliki ratusan pdf, sialnya tidak bekerja untuk saya! ; (Sayang sekali, sungguh mimpi buruk
!;

Jawaban:

6

tl; dr? Mulai dengan Nuance PowerPDF Advanced.

Saya mengevaluasi perangkat lunak OCR pada Desember 2014 sebagai persiapan untuk proyek besar - OCR pada jutaan halaman berbahasa Inggris yang dikerjakan dalam batch. Jika Anda bersedia menghabiskan beberapa ratus dolar, Anda memiliki banyak pilihan; versi uji coba dapat membantu Anda jika Anda hanya perlu mengonversi beberapa ratus halaman.

Banyak paket perangkat lunak ingin memuat semua file input, melakukan OCR dan menyatukan kekacauan menjadi satu output. IMHO ini salah, saya tidak tahu siapa yang mau itu. Saya mencari batch yang benar: satu file output untuk setiap file input, operasi tanpa pengawasan, jangan berhenti untuk apa pun, beri saya laporan terperinci di akhir. Peringatan spoiler: Saya tidak menemukan itu.

Paket mengikuti abjad. Harga yang ditunjukkan di bawah ini adalah daftar tetapi diskon berlimpah. Ambil komentar saya tentang akurasi dengan sebutir garam; input Anda tidak akan sama dengan input saya sehingga jarak tempuh Anda tentu akan bervariasi.

ABBYY Finereader 12 Perusahaan: $ 400. Fitur batch disebut "Task Manager" dan ada di menu Tools. Ini akan memproses file dari folder, termasuk subfolder; itu akan dengan senang hati membuat file output terpisah untuk setiap file input. Tampaknya tidak mampu mempertahankan hierarki folder input; semua file output pergi ke folder output yang sama. Akurasi dalam tes saya tinggi, namun masih yang terendah dari paket yang saya daftarkan di sini.

Adobe Acrobat XI: $ 300. Fitur batch disebut "Pengenalan Teks / Dalam Banyak File" yang dapat ditemukan dengan mengklik Tools (toolbar ketiga, sisi kanan atas layar utama). Memproses subfolder, satu output untuk setiap input. Berhenti dan memasang prompt jika menemukan file yang dilindungi kata sandi. Tidak mempertahankan pohon direktori input secara default; dapat melakukannya dengan menulis output ke folder yang sama dengan input. Akurasi cukup bagus dalam tes saya.

Nuance OmniPage Ultimate (alias v19): $ 500. Fitur batch disebut "DocuDirect" dan ini adalah program terpisah yang disertakan dengan paket. Ini akan memproses folder dan subfolder; jika Anda memilih fitur yang tepat, itu akan mempertahankan pohon direktori input di area output. Satu output untuk setiap input. Berhenti dan menuntut kata sandi untuk file yang dilindungi. Tampaknya memanfaatkan keunggulan prosesor multi-core untuk menjalankan tugas secara paralel. Akurasi sangat bagus . Tetapi stabilitas prosesor batch buruk; dokumen fuzzy akan menghentikannya, tidak pernah pulih, menggagalkan batch dengan mudah.

Nuance PowerPDF Advanced v1.1 (penerus OmniPage Ultimate): $ 150. Fitur Batch disebut "Batch Converter" dan dapat dijangkau dari program utama di bawah tab Pemrosesan Lanjut. Ini akan memproses folder dan subfolder, mempertahankan struktur input dalam output. Satu output untuk setiap input. Akan menggunakan banyak core, tetapi tidak agresif; apa itu artinya saya tidak bisa membuatnya menjenuhkan host multi-core. Akurasi adalah excllent , sebagai baik atau lebih baik dari OmniPage. File yang buruk atau kabur tidak menyebabkannya hang. Prosesor batch menulis ( guncangan ) file log teks biasa ke direktori output.

ReadIris Corporate 14: $ 600. Fitur batch dipanggil oleh item "Batch OCR" yang diungkapkan dengan mengklik tombol "Dari File" di layar utama. Ini akan memproses folder dan subfolder, satu output untuk setiap input, dan secara default struktur direktori output cocok dengan struktur direktori input. Berhenti dan meminta input pengguna pada file yang tidak valid; proses tanpa keluhan lebih lanjut semua dokumen yang dilindungi tampaknya dengan OCR-ing gambar. Akurasinya sangat bagus, setara dengan Acrobat.

Pada mesin desktop saya (hanya dual core), dengan input yang saya pilih, setiap paket membutuhkan setidaknya 3 detik untuk memproses halaman; beberapa mengambil lebih banyak. Mungkin bisa mengendarainya di mesin dengan core lebih banyak.

Gotchas berlimpah, pastikan untuk merencanakannya: PDF yang tidak valid (beberapa paket berhenti), PDF yang dilindungi kata sandi (beberapa paket berhenti, bagaimanapun juga!), Dan halaman yang dirotasi (lanskap bukan potret). Jika Anda ingin batch dijalankan hingga selesai, Anda harus menyiapkan area input untuk paket-paket ini Sangat, Sangat Hati-hati. Lihatlah ke fitur cetak-ke-PDF paket GhostScript untuk cara menghapus perlindungan dari PDF.

Menjalankan batch besar dapat menyebabkan memori-kelelahan dan masalah gantung, bahkan seharusnya tidak (argh - mungkin kebocoran memori). Jika Anda melakukan otomatisasi apa pun, masalah besar adalah menemukan setelah fakta apa yang sebenarnya terjadi - dokumen mana yang tidak dapat diproses, yang gagal selama pemrosesan, dll. Seperti perangkat lunak desktop yang orang tidak pernah mendengar tentang sesuatu yang disebut "file log".

Akhirnya mendapatkan dukungan, bahkan sebagai pelanggan yang membayar, cukup sulit untuk paket pasar massal ini. Misalnya saya mengeluh kepada satu perwakilan dukungan pelanggan yang terhormat tentang sebuah paket (yang akan tetap tanpa nama) tergantung pada beberapa input besar. Saya menunggu 36 jam sebelum menyerah :). Mereka dengan manis menyarankan membatasi ukuran batch menjadi 300 dokumen. Itu hanya benar-benar tidak dapat diterima bagi saya, tapi hei itu mendapatkan tiket dukungan ditutup dengan cepat, kan? Dan hanya itu yang penting, bukan? Mendesah.

HTH

chrisinmtown
sumber
Halo Chrislott, Terima kasih atas jawaban terperinci Anda. ;) Aku menghargai. ;) Kami lebih dari 4 tahun kemudian dan masih sangat tidak ada perangkat lunak yang sempurna untuk hanya melakukan OCR otomatis dalam folder dan merilis file log dengan kesalahan setelah selesai! ... Mungkin saya akan mencoba menghubungi Nuance.
Erb
Untuk saat ini saya menggunakan versi lama Acrobat pro dan beberapa freeware. Ini proses yang panjang. Saya bisa memerinci jika diperlukan! Tetapi pekerjaan itu dilakukan sebaik mungkin! ;)
Erb
3

Adobe Acrobat akan memproses folder PDF dan seperti kebanyakan produk Adobe ada uji coba 30 hari .
Fungsi ini terletak di menu 'Dokumen':

Dokumen> Regulasi Teks OCR> Kenali teks dalam banyak file menggunakan OCR

dari mana Anda dapat menambahkan folder Anda.

Di Acrobat X fungsi tersedia sebagai berikut:

Alat> Kenali Teks> Dalam Banyak File
pelms
sumber
Terima kasih "pelms". ;) Saya akan mencobanya jika waktu mengizinkan. Yang saya sukai dalam uji coba finereader.abbyy.com saya sebelumnya adalah bisa mengenali beberapa bahasa yang berbeda. ;)
Erb
1

Sebenarnya, pdfsandwich telah diperbarui dalam setahun terakhir dan sama sekali tidak sulit bagi saya untuk menginstal di Linux Mint. Hasil yang diberikannya lebih rendah daripada Adobe Acrobat, tapi itu satu-satunya solusi yang bisa saya temukan di Linux sejauh ini.

Brian Z
sumber
1
Sangat menarik! Saya tidak tahu tentang itu. Saya menambahkan tautan dari en.wikisource.org/wiki/… dan akan mengujinya di beberapa titik di masa mendatang. (Sebenarnya ada banyak solusi lain tetapi saya tidak akan memulai di sini!)
Nemo
0

Coba WatchOCR . Ini adalah paket perangkat lunak sumber terbuka yang mengubah gambar yang dipindai menjadi pdf yang dapat dicari teks. Ini gratis dan open source dan memiliki antarmuka web yang bagus untuk administrasi jarak jauh. Dengan konfigurasi yang tepat digunakan untuk membuat layanan batch pdf / ocr untuk seluruh jaringan melalui saham seseorang. Sayangnya itu hanya linux. Tetapi Anda dapat menginstalnya di server lama dan kemudian seluruh organisasi Anda dapat menggunakannya.

Jika Anda ingin melakukan hal yang sama secara online tanpa menginstal apa pun, coba PDFCubed.com

langner
sumber
Situs web WatchOCR berjongkok, meskipun diarsipkan
Tobias Kienzler