Hari ini saya menerima PDF dari pemasok kami dan berisi beberapa halaman yang dicetak dan dipindai dengan tanda tangan dll. Saya membukanya di Acrobat Reader DC. Tapi yang mengejutkan saya, teks dari gambar yang dipindai jelas dapat dipilih dan disalin sebagai teks. Lihat tangkapan layar:
Jelas ada beberapa OCR di balik ini karena teks yang disalin mengandung kesalahan. Tetapi bagaimana ini mungkin? Saya belum pernah melihat ini sebelumnya, bagaimana ini bisa dibuat?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
sumber
sumber
Jawaban:
Ini (bertentangan dengan beberapa jawaban lain di sini) kemungkinan besar tidak ada hubungannya dengan Acrobat sama sekali.
Sebagian besar (semua ?!) pemindai dokumen profesional dan sebagian semi-profesional akan secara otomatis melakukan OCR ketika Anda memilih "Simpan sebagai PDF" dan centang kotak "dicari" di dalam pengaturan. Model "tingkat konsumen" yang lebih murah akan melakukan OCR pada PC yang terpasang, pemindai jaringan biasa melakukannya secara internal.
Kata "dicari" berarti tidak lebih dan tidak kurang dari itu pemindai akan melakukan OCR, kemudian menghasilkan halaman dengan bitmap yang dipindai di dalamnya, dan melapisinya dengan karakter yang tidak terlihat dari OCR, masing-masing ditempatkan di atas karakter masing-masing pada bitmap.
Dengan begitu, Anda dapat mencari, dan juga memilih, menyalin, dan menempelkan "bitmap" seolah-olah dengan sulap. Namun, sama sekali bukan sihir. Pada kenyataannya, Anda hanya menyalin teks yang tidak terlihat.
Pemindai juga dapat melakukan beberapa keajaiban tambahan seperti mengomposisi gambar besar dari banyak ubin kecil yang juga digunakan kembali. Ini menghasilkan ukuran dokumen yang jauh lebih kecil daripada yang sebenarnya mungkin terjadi, tetapi juga dapat menyebabkan kejutan lucu (tidak terlalu lucu jika itu terjadi pada Anda!) Seperti Xerox mengubah cerita tagihan Anda , ironisnya bahkan ketika tidak ada OCR dilakukan, tergantung pada firmware.
sumber
Pada dasarnya, sebuah program melakukan OCR pada file input dan kemudian menempatkan lapisan teks yang tidak terlihat di atas gambar. Atau, itu mungkin juga menempatkan lapisan teks yang terlihat di bawah gambar, memberikan efek yang sama.
Ketika Anda memilih sesuatu, gambar itu tidak masalah karena lapisan teks akan dipilih.
Ada beberapa cara. Mengingat Acrobat telah disarankan, saya akan menambahkan beberapa opsi gratis (dan untungnya Anda tidak dipaksa memiliki Windows untuk menggunakannya).
PDF-XChange Viewer
Ini adalah program Windows asli oleh Tracker Software . Versi freeware berjalan dengan baik di bawah Wine jika Anda menggunakan edisi 32-bit dalam awalan 32-bit, oleh karena itu Anda dapat menggunakannya pada Windows, macOS dan Linux. Dalam dua kasus terakhir, Anda akan membutuhkan PlayOnMac atau PlayOnLinux masing-masing.
Inilah gambar dari jawaban ini yang saya tinggalkan di Tanya Ubuntu:
OCRmyPDF
Ini adalah program multiplatform yang ditulis dalam Python , berdasarkan Ghostscript, Tesseract dan Unpaper. Dari dokumen:
Itu dapat dengan mudah diinstal pada turunan Debian dan Ubuntu:
Atau di macOS:
Pada Windows Anda harus menggunakan gambar Docker. Lihat dokumen resmi untuk detailnya.
Penggunaannya sangat sederhana dan saya sarankan Anda menggunakan parameter
-d
(deskew) dan-c
(bersih) opsional untuk hasil yang lebih baik. Ini akan meluruskan setiap halaman dan membersihkan titik-titik kecil / ketidaksempurnaan sebelum menjalankan proses OCR.Anda dapat (dan harus) menyediakan bahasa tersebut
-l
.Berikut ini contoh yang diambil dari dokumen miring ini yang ditulis dalam bahasa Italia:
Perintah yang saya gunakan adalah:
Alat online
Ada beberapa alat online yang melakukan hal yang sama. Yang perlu dicatat, PDF24 meng-host versi OCRmyPDF berbasis web gratis yang dapat digunakan tanpa batasan.
Lihat juga:
sumber
Ini mungkin karena fitur Acrobat OCR :
sumber
Dari situs web Adobe
sumber