Bagaimana cara membuat PDF dengan halaman yang dipindai tetapi teks yang bisa dipilih?

32

Hari ini saya menerima PDF dari pemasok kami dan berisi beberapa halaman yang dicetak dan dipindai dengan tanda tangan dll. Saya membukanya di Acrobat Reader DC. Tapi yang mengejutkan saya, teks dari gambar yang dipindai jelas dapat dipilih dan disalin sebagai teks. Lihat tangkapan layar:

PDF dipindai dengan teks yang dapat dipilih

Jelas ada beberapa OCR di balik ini karena teks yang disalin mengandung kesalahan. Tetapi bagaimana ini mungkin? Saya belum pernah melihat ini sebelumnya, bagaimana ini bisa dibuat?

Vojtěch Dohnal
sumber
4
Paket-paket seperti github.com/gkovacs/pdfocr memungkinkan ini terjadi untuk gambar PDF yang sudah ada
exussum
Bagaimana ini berbeda dari hasil yang Anda dapatkan dengan Batch-OCR banyak PDF ?
Dmitry Grigoryev
@ DmitryGrigoryev Saya belum pernah melihat jenis PDF ini sebelumnya, jadi saya bertanya, apa itu. Tidak ada apa-apa tentang firmware printer OCR atau OCRMyPDF dalam jawaban, baik pertanyaan maupun jawaban sangat berbeda. Saya tidak melihat duplikat apa pun kecuali bahwa kedua pertanyaan tentang OCR dan PDF.
Vojtěch Dohnal
Yah, saya belum pernah melihat OCR PDF yang berbeda dari yang Anda posting, itu sebabnya pertanyaan Anda terasa aneh bagi saya.
Dmitry Grigoryev

Jawaban:

53

Ini (bertentangan dengan beberapa jawaban lain di sini) kemungkinan besar tidak ada hubungannya dengan Acrobat sama sekali.

Sebagian besar (semua ?!) pemindai dokumen profesional dan sebagian semi-profesional akan secara otomatis melakukan OCR ketika Anda memilih "Simpan sebagai PDF" dan centang kotak "dicari" di dalam pengaturan. Model "tingkat konsumen" yang lebih murah akan melakukan OCR pada PC yang terpasang, pemindai jaringan biasa melakukannya secara internal.

Kata "dicari" berarti tidak lebih dan tidak kurang dari itu pemindai akan melakukan OCR, kemudian menghasilkan halaman dengan bitmap yang dipindai di dalamnya, dan melapisinya dengan karakter yang tidak terlihat dari OCR, masing-masing ditempatkan di atas karakter masing-masing pada bitmap.

Dengan begitu, Anda dapat mencari, dan juga memilih, menyalin, dan menempelkan "bitmap" seolah-olah dengan sulap. Namun, sama sekali bukan sihir. Pada kenyataannya, Anda hanya menyalin teks yang tidak terlihat.

Pemindai juga dapat melakukan beberapa keajaiban tambahan seperti mengomposisi gambar besar dari banyak ubin kecil yang juga digunakan kembali. Ini menghasilkan ukuran dokumen yang jauh lebih kecil daripada yang sebenarnya mungkin terjadi, tetapi juga dapat menyebabkan kejutan lucu (tidak terlalu lucu jika itu terjadi pada Anda!) Seperti Xerox mengubah cerita tagihan Anda , ironisnya bahkan ketika tidak ada OCR dilakukan, tergantung pada firmware.

Damon
sumber
Ya, ini kemungkinan besar cara mereka membuatnya, saya sangat ragu mereka menggunakan Adobe Acrobat lengkap.
Vojtěch Dohnal
Kami melakukannya dengan menempatkan semua teks di belakang gambar yang dipindai, tempat OCR melaporkan di mana ia menemukan setiap simpul teks.
Thorbjørn Ravn Andersen
10

Tetapi bagaimana ini mungkin?

Pada dasarnya, sebuah program melakukan OCR pada file input dan kemudian menempatkan lapisan teks yang tidak terlihat di atas gambar. Atau, itu mungkin juga menempatkan lapisan teks yang terlihat di bawah gambar, memberikan efek yang sama.

Ketika Anda memilih sesuatu, gambar itu tidak masalah karena lapisan teks akan dipilih.

bagaimana ini bisa dibuat?

Ada beberapa cara. Mengingat Acrobat telah disarankan, saya akan menambahkan beberapa opsi gratis (dan untungnya Anda tidak dipaksa memiliki Windows untuk menggunakannya).

PDF-XChange Viewer

Ini adalah program Windows asli oleh Tracker Software . Versi freeware berjalan dengan baik di bawah Wine jika Anda menggunakan edisi 32-bit dalam awalan 32-bit, oleh karena itu Anda dapat menggunakannya pada Windows, macOS dan Linux. Dalam dua kasus terakhir, Anda akan membutuhkan PlayOnMac atau PlayOnLinux masing-masing.

Inilah gambar dari jawaban ini yang saya tinggalkan di Tanya Ubuntu:

Cuplikan layar PDF-XChange Viewer di bawah Wine

OCRmyPDF

Ini adalah program multiplatform yang ditulis dalam Python , berdasarkan Ghostscript, Tesseract dan Unpaper. Dari dokumen:

Apa yang dilakukan OCRmyPDF

OCRmyPDF menganalisis setiap halaman PDF untuk menentukan ruang warna dan resolusi (DPI) yang diperlukan untuk menangkap semua informasi di halaman itu tanpa kehilangan konten. Ini menggunakan Ghostscript untuk meraster halaman, dan kemudian melakukan pada OCR pada gambar raster untuk membuat "layer" OCR. Lapisan kemudian dicangkokkan kembali ke PDF asli.

Itu dapat dengan mudah diinstal pada turunan Debian dan Ubuntu:

apt-get install ocrmypdf

Atau di macOS:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

Pada Windows Anda harus menggunakan gambar Docker. Lihat dokumen resmi untuk detailnya.

Penggunaannya sangat sederhana dan saya sarankan Anda menggunakan parameter -d(deskew) dan -c(bersih) opsional untuk hasil yang lebih baik. Ini akan meluruskan setiap halaman dan membersihkan titik-titik kecil / ketidaksempurnaan sebelum menjalankan proses OCR.

Anda dapat (dan harus) menyediakan bahasa tersebut -l.

Berikut ini contoh yang diambil dari dokumen miring ini yang ditulis dalam bahasa Italia:

Contoh untuk OCRmyPDF

Perintah yang saya gunakan adalah:

ocrmypdf -l ita -d -c input.pdf output.pdf

Alat online

Ada beberapa alat online yang melakukan hal yang sama. Yang perlu dicatat, PDF24 meng-host versi OCRmyPDF berbasis web gratis yang dapat digunakan tanpa batasan.

Lihat juga:

Andrea Lazzarotto
sumber
Terima kasih atas jawaban ini, saya mencoba OCRMyPDF dan itu bekerja dengan sangat baik tetapi sayangnya dukungan bahasa yang saya butuhkan belum matang, sehingga hasilnya belum terlalu dapat digunakan.
Vojtěch Dohnal
@ VojtěchDohnal bahasa apa yang Anda minati? Apakah Anda menginstal paket bahasa yang relevan untuk Tesseract? Lihat daftar di sini: macports.org/ports.php?by=name&substr=tesseract-
Andrea Lazzarotto
4

Ini mungkin karena fitur Acrobat OCR :

Acrobat dapat mengenali teks dalam file PDF atau gambar apa pun dalam berbagai bahasa. Yang harus Anda lakukan adalah membuka dokumen atau gambar yang dipindai yang ingin Anda OCR, lalu klik tombol Tools biru di kanan atas bilah alat. Di bilah sisi itu, pilih tab Kenali Teks, lalu klik tombol Di File Ini.

...

Dengan teks yang dikenali, Anda sekarang dapat markup PDF menggunakan semua alat markup normal - Anda dapat menyorot, mencoret teks, dan banyak lagi . Anda bahkan dapat menyalin teks dengan pemformatan yang terdeteksi, meskipun itu seringkali kurang akurat daripada pengenalan teks itu sendiri.

duDE
sumber
Ini berfungsi di Reader juga? Dokumen-dokumen lain tidak berfungsi seperti ini untuk saya ...
Vojtěch Dohnal
Saya takut tidak, tetapi lihat artikel ini: pdf.wondershare.com/pdf-software-comparison/…
duDE
3

Dari situs web Adobe

Kenali teks dalam file PDF yang dipindai

Ketika Anda memindai dokumen kertas ke PDF, Anda benar-benar hanya mengambil gambar dari dokumen-dokumen itu. Itu bagus untuk foto dan gambar cetakan lainnya, tetapi bagaimana jika Anda memiliki dokumen 200 halaman di mana Anda perlu menemukan kata atau frasa tertentu? Gunakan Acrobat untuk mengenali teks dalam file yang dipindai, membuat konten teks dapat dicari dan digunakan.

  1. Dengan dokumen yang dipindai Anda terbuka di Acrobat, buka panel Tools dan perluas panel Text Recognition. Jika Anda tidak dapat melihat "Pengenalan Teks" di panel Alat, Anda dapat menambahkannya dengan memilih menu di sudut kanan atas (gambar di bawah - lihat di mana panah merah kecil menunjuk? Klik di sana).
  2. Klik "Di File Ini" untuk memindai dokumen yang telah Anda buka. Anda hanya dapat menerima pengaturan default dan klik "Oke" ketika kotak Kenali Teks muncul. Acrobat akan mengubah gambar menjadi teks yang dapat digunakan; untuk mengujinya, coba edit kata atau kalimat dengan panel Content Editing. Bukankah itu luar biasa !?
Máté Juhász
sumber
Terima kasih, tetapi saya baru saja membuka PDF di Reader DC dan tidak melakukan hal khusus dengan itu, dokumen PDF lain dengan halaman yang dipindai tidak berfungsi secara otomatis ...
Vojtěch Dohnal
5
OCR dilakukan SEBELUM Anda menerima file, ketika teks dikenali, itu disimpan bersama dengan pdf.
Máté Juhász
@ VojtěchDohnal Anda mungkin perlu akrobat penuh, bukan hanya pembaca
Thorbjørn Ravn Andersen