Saya memiliki bahan PDF yang dipindai yang ingin saya tambahkan lapisan teks tersembunyi, sehingga saya dapat mengindeks dokumen. Saya menggunakan ghostscript black dan white tiff output device (tiffg4) untuk mengekstrak halaman sebagai gambar tiff, dan berikut ini contoh tampilannya:
Memproses gambar ini dengan tesseract, tidak memberikan hasil yang baik.
Mengubah output ghostscript DPI (600, 300, 150, 96) menunjukkan bahwa gambar pada 96 DPI memberikan hasil terbaik dari tesseract tetapi masih belum memuaskan.
Sekarang saya berpikir untuk meminta saran filter mana yang akan meningkatkan gambar ini untuk pemrosesan OCR.
Saya bisa menggunakan imagemagick, atau numpy / scipy / ndimage
sumber