Saya memiliki PDF dari buku yang dipindai.
Saya mencari perangkat lunak gratis yang akan melakukan OCR dan kemudian memberikan opsi untuk menyimpannya sebagai PDF atau dokumen lagi.
Apakah ada satu?
software-rec
pdf
ocr
slhck
sumber
sumber
Jawaban:
Anda dapat mengunduh uji coba Adobe Acrobat Pro selama 30 hari dan menggunakan fungsi 'Pengenalan Teks OCR (' Dokumen> Pengenalan Teks OCR> Mengenali Teks Menggunakan OCR ... '). Dalam dialog pengaturan, pilih 'Gambar yang Dapat Dicari' sebagai gaya keluaran. Ini akan membuat gambar halaman tetapi menanamkan teks OCR sehingga dokumen dapat dicari dan memungkinkan teks untuk dipilih, disalin dan disisipkan.
Setelah menjalankan OCR, Anda harus mengonfirmasi atau mengoreksi kata-kata bahwa OCR tidak yakin menggunakan fungsi 'Temukan OCR Tersangka'.
sumber
Jika Anda memiliki Akun Google, maka Google Documents sekarang menyertakan fungsionalitas untuk mengunggah file PDF dan melakukan OCR di atasnya.
Saya sudah mencobanya sendiri dan itu membuat tusukan yang adil pada PDF yang diformat dengan baik.
Formatnya cukup hancur tetapi teks tampaknya bertahan.
sumber
Produk-produk berikut ditemukan terdaftar di Internet, tetapi saya belum menggunakannya.
OCR online
Terminal OCR
OCR gratis
Server Pengenalan Maestro bersifat komersial, tetapi memiliki demo coba-coba online.
Perangkat lunak gratis
FreeOCR - hanya untuk gambar.
pdfsandwich - pdf -> pdf converter.
sumber
Cuneiform + hocr2pdf + Ghostscript : Solusi sumber terbuka DIY.
Saya memposting jawaban yang menguraikan solusi yang melibatkan versi sistem OCR Cuneiform open-source dan hocr2pdf bersama dengan Ghostscript untuk menyatukan halaman PDF.
Itu khusus untuk Linux tetapi Anda juga bisa mendapatkan Cuneiform dan Ghostscript untuk Windows. Saya tidak yakin tentang hocr2pdf atau yang setara.
sumber
Berikut adalah metode yang sangat aneh, yang melibatkan membiarkan Google mengindeks dan OCR untuk Anda di situs web, lalu mengambilnya.
sumber
Instal Imagemagick . Buka jendela atau terminal cmd:
Outputnya akan menjadi 1 file jpg untuk setiap halaman di pdf Anda, myfile-00.jpg, myfile-01.jpg, dll.
Lewati setiap gambar melalui program ocr. Saya tidak punya banyak pengalaman dengan ini, tetapi tampaknya ada banyak pilihan.
Konversi setiap halaman teks kembali ke pdf. Anda bisa melakukan ini lagi dengan imagemagick, tetapi ada beberapa cara lain juga:
sumber
Permintaan Anda tampaknya menjadi solusi yang rumit untuk masalah ini, meskipun saya mungkin tidak memahami masalahnya dengan benar. Bagaimanapun:
Mengapa tidak mendapatkan penulis PDF yang akan memungkinkan Anda memasukkan data langsung ke halaman pdf?
sumber
Coba PDFCubed.com Tidak ada yang menginstal, semuanya dilakukan secara online. Anda dapat mengirim dokumen Anda untuk diproses melalui web, email, atau dropbox. PDF dan TIF yang dipindai diubah menjadi teks pdf yang dapat dicari dan kemudian dapat diambil kembali melalui web, email, atau dropbox.
sumber