Bagaimana cara menghapus OCR dari PDF?

13

Saya telah mencari Google untuk beberapa waktu tetapi tidak dapat menemukan jawaban untuk pertanyaan saya.

Saya memiliki lapisan OCR yang tidak diinginkan dalam dokumen yang baru-baru ini saya pindai dengan Adobe Acrobat. Itu belum di-OCR dengan benar, dan saya ingin mengurangi beberapa informasi, tetapi OCR membuat informasi yang diinginkan terhapus. Saya mengonversikan file-file tersebut ke TIF, tetapi melihat ada penurunan kualitas yang sangat signifikan. Saya telah mendengar bahwa mencetak ke PDF lain baik menyimpan teks atau mengurangi kualitas gambar.

Saya menghargai segala bantuan dalam menyelesaikan masalah ini secepatnya.

Terima kasih.

Sanoo
sumber

Jawaban:

5

Di Acrobat Pro DC, perintah yang sesuai adalah "Hapus Informasi Tersembunyi," yang tersedia melalui alat "Lindungi" dan "Redact".

Pada menjalankan perintah, itu hanya mencari informasi yang tersembunyi tetapi tidak mengubah dokumen. Anda kemudian harus memberi tahu Acrobat informasi mana yang harus dihapus. Dalam hal ini, pilih "Teks Tersembunyi" di panel Hasil, lalu klik tombol Hapus dan simpan dokumen yang diubah.

pengguna1125483
sumber
Saya telah menggunakan "hapus informasi tersembunyi", tetapi bagi saya untuk beberapa alasan yang hanya menghilangkan bagian gambar pada halaman tertentu. Namun, terima kasih atas balasan Anda.
Sanoo
Ini tidak benar secara universal. Entah bagaimana (mungkin bug macOS PDFKit) teks ABBYY FineReader-OCRed saya rusak, dan memeriksa "Teks tersembunyi" di bawah Redact → Remove Hidden menghapus teks tanpa masalah; Saya kemudian berhasil menggunakan Enhance Scans → Recognize Text untuk melakukan OCR di dalam Acrobat itu sendiri.
Nicholas Riley
Masalahnya bagi saya adalah bahwa setelah saya menghapus teks tersembunyi, saya masih tidak dapat menjalankan OCR dengan "ClearScan" (yaitu "Teks dan Gambar yang Dapat Diedit"). Aneh karena lapisan teks tampaknya hilang, namun menjalankan OCR menghasilkan kesalahan "Acrobat tidak dapat melakukan pengenalan karena: halaman berisi teks yang dapat di render."
user1125483
1

Setelah banyak bereksperimen, saya menemukan bahwa mencetak ke Adobe PDF dari Adobe Acrobat mencetak dokumen tanpa OCR dan tanpa kehilangan kualitasnya (resolusi pandangan sekilas yang pertama hilang).

Namun, banyak situs mengklaim bahwa ini tidak berfungsi. Saya juga mencoba printer lain seperti Foxit Reader dan OneNote tetapi kualitasnya berkurang. JPEG juga sama.

Harap diingat bahwa jarak tempuh Anda mungkin beragam.

Catatan: Saya membiarkan utas ini ditandai sebagai tidak dijawab dengan harapan menemukan jawaban yang lebih baik daripada milik saya.

Sanoo
sumber
1

(satu tahun yang lalu...)

Jika, seperti yang Anda katakan, dokumen dipindai dan tidak dicetak ke PDF dari Word misalnya, Anda dapat dengan mudah menghapus dengan Adobe Anda:

Pilih Dokumen, Periksa Dokumen dan sekarang Anda dapat menghapus teks tersembunyi (OCR).

Fran
sumber
Terima kasih untuk balasan Anda. Saya akan mengujinya secepat mungkin dan memberi tahu Anda. Terima kasih atas jawabannya!
Sanoo
Saya pikir saya sudah mengomentari ini, tetapi masalahnya adalah saya memiliki Acrobat DC Pro, dan menu-menu itu telah dihapus. Terima kasih atas jawaban Anda.
Sanoo
1

Di Acrobat Pro: gunakan 'hapus informasi tersembunyi' (di bawah 'perlindungan'). Pilih semua, jalankan, OCR hilang

jazzzz
sumber
1

Di Acrobat X, di bawah Proteksi, ada tombol Sanitize Document yang menghapus SEMUA YANG tapi yang bisa dilihat (termasuk layer teks OCR), mengubah dokumen menjadi peta bit yang rata.

Dave
sumber
0

Saya membangun alat untuk melakukan Redactor PDF gratis ini . Jika Anda mengunggah gambar dan cukup klik redact, itu akan meratakan pdf Anda dan menghapus OCR. Jika mau, Anda juga dapat menggambar tanda redaksi pada dokumen juga.

levinologi
sumber