Bagaimana saya bisa mengkonversi gambar yang dipindai sebagai PDF ke file PDF yang dapat dicari? [Tutup]

19

Saya memiliki PDF dari buku yang dipindai.

Saya mencari perangkat lunak gratis yang akan melakukan OCR dan kemudian memberikan opsi untuk menyimpannya sebagai PDF atau dokumen lagi.

Apakah ada satu?

slhck
sumber
Maksud Anda, Anda ingin mengonversi gambar dalam pdf ke teks?
DaveParillo
ya, tapi saya tidak ingin file txt sebagai output. Saya ingin melihat pdf persis sama tetapi dengan pilihan untuk tekan Ctrl + F dan kata-kata mark dll ..
Anda akan kesulitan mengubah PDF ini tanpa kehilangan format dan gaya teks. saya belum menemukan perangkat lunak OCR yang dapat dengan baik menyimpan dokumen dari gambar yang dipindai. bersiaplah untuk beberapa pekerjaan keledai (mis. proofreading, dll.) :)

Jawaban:

5

Anda dapat mengunduh uji coba Adobe Acrobat Pro selama 30 hari dan menggunakan fungsi 'Pengenalan Teks OCR (' Dokumen> Pengenalan Teks OCR> Mengenali Teks Menggunakan OCR ... '). Dalam dialog pengaturan, pilih 'Gambar yang Dapat Dicari' sebagai gaya keluaran. Ini akan membuat gambar halaman tetapi menanamkan teks OCR sehingga dokumen dapat dicari dan memungkinkan teks untuk dipilih, disalin dan disisipkan.

Setelah menjalankan OCR, Anda harus mengonfirmasi atau mengoreksi kata-kata bahwa OCR tidak yakin menggunakan fungsi 'Temukan OCR Tersangka'.

pelms
sumber
Meskipun Adobe tidak gratis, sejauh ini solusi OCR yang paling mampu di luar sana
James Healy
4

Jika Anda memiliki Akun Google, maka Google Documents sekarang menyertakan fungsionalitas untuk mengunggah file PDF dan melakukan OCR di atasnya.

Saya sudah mencobanya sendiri dan itu membuat tusukan yang adil pada PDF yang diformat dengan baik.

Formatnya cukup hancur tetapi teks tampaknya bertahan.

Richard Lucas
sumber
4

Produk-produk berikut ditemukan terdaftar di Internet, tetapi saya belum menggunakannya.

OCR online

Terminal OCR

OCR Terminal adalah layanan OCR online yang melakukan Optical Character Recognition (OCR) pada gambar yang dipindai dan file pdf Anda dan mengubahnya menjadi dokumen yang dapat diedit dan dicari teks.

OCR gratis

Free-OCR.com adalah alat OCR (Pengenalan Karakter Optik) online gratis. Anda dapat menggunakan ini untuk melakukan OCR pada gambar apa pun yang Anda berikan.
Layanan ini gratis, tidak perlu registrasi. Kami juga tidak memerlukan alamat email Anda.
Cukup unggah file gambar Anda. Free-OCR mengambil JPG, GIF, TIFF BMP atau PDF ( hanya halaman pertama ). Satu-satunya batasan adalah bahwa gambar tidak boleh lebih besar dari 2MB, tidak lebih lebar atau lebih tinggi dari 5000 piksel dan ada batas 10 unggahan gambar per jam.

Server Pengenalan Maestro bersifat komersial, tetapi memiliki demo coba-coba online.

Perangkat lunak gratis

FreeOCR - hanya untuk gambar.

FreeOCR adalah program pemindaian & OCR termasuk engine ocr gratis Tesseract yang juga dikenal sebagai GUI Tesseract. Ini termasuk installer Windows dan Sangat mudah digunakan dan mendukung tiff multi-halaman, dokumen faks serta sebagian besar tipe gambar termasuk Tiff terkompresi yang tidak dapat dibaca oleh mesin Tesseract. Sekarang memiliki Twain scanning.

pdfsandwich - pdf -> pdf converter.

pdfsandwich adalah alat baris perintah untuk buku atau jurnal pindaian OCR. Ia mampu mengenali tata letak halaman bahkan untuk teks multikolom.

Pada dasarnya, pdfsandwich adalah skrip wrapper yang memanggil binari berikut: convert, cuneiform, gs, dan hocr2pdf. Ini dikenal untuk berjalan pada sistem Unix dan telah diuji pada Linux dan MacOS X. Ini mendukung pemrosesan paralel pada sistem multiprosesor.

harrymc
sumber
Saya baru saja menggunakan pdfsandwich. Ini bekerja dan gratis! :) Ini pasti akan membantu dalam tesis saya, terima kasih!
Eddy
Sepertinya pdfsandwich telah pindah? tobias-elze.de/pdfsandwich
pioto
@pioto: Bukan saya yang menambahkan pdfsandwich di atas, tapi saya memperbaiki tautannya seperti yang Anda sarankan.
harrymc
2

Cuneiform + hocr2pdf + Ghostscript : Solusi sumber terbuka DIY.

Saya memposting jawaban yang menguraikan solusi yang melibatkan versi sistem OCR Cuneiform open-source dan hocr2pdf bersama dengan Ghostscript untuk menyatukan halaman PDF.

Itu khusus untuk Linux tetapi Anda juga bisa mendapatkan Cuneiform dan Ghostscript untuk Windows. Saya tidak yakin tentang hocr2pdf atau yang setara.

Jukka Matilainen
sumber
1

Berikut adalah metode yang sangat aneh, yang melibatkan membiarkan Google mengindeks dan OCR untuk Anda di situs web, lalu mengambilnya.

jtbandes
sumber
yeah, saya melihat bahwa terlalu ... aneh Memang :) Aku mungkin berakhir melakukannya ...
0

Instal Imagemagick . Buka jendela atau terminal cmd:

convert myfile.pdf myfile-%02d.jpg

Outputnya akan menjadi 1 file jpg untuk setiap halaman di pdf Anda, myfile-00.jpg, myfile-01.jpg, dll.

Lewati setiap gambar melalui program ocr. Saya tidak punya banyak pengalaman dengan ini, tetapi tampaknya ada banyak pilihan.

Konversi setiap halaman teks kembali ke pdf. Anda bisa melakukan ini lagi dengan imagemagick, tetapi ada beberapa cara lain juga:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
sumber
0

Permintaan Anda tampaknya menjadi solusi yang rumit untuk masalah ini, meskipun saya mungkin tidak memahami masalahnya dengan benar. Bagaimanapun:

Mengapa tidak mendapatkan penulis PDF yang akan memungkinkan Anda memasukkan data langsung ke halaman pdf?

Xavierjazz
sumber
0

Coba PDFCubed.com Tidak ada yang menginstal, semuanya dilakukan secara online. Anda dapat mengirim dokumen Anda untuk diproses melalui web, email, atau dropbox. PDF dan TIF yang dipindai diubah menjadi teks pdf yang dapat dicari dan kemudian dapat diambil kembali melalui web, email, atau dropbox.

langner
sumber