Memfilter gambar yang agak “setengah kencang” untuk pemrosesan OCR

10

Saya memiliki bahan PDF yang dipindai yang ingin saya tambahkan lapisan teks tersembunyi, sehingga saya dapat mengindeks dokumen. Saya menggunakan ghostscript black dan white tiff output device (tiffg4) untuk mengekstrak halaman sebagai gambar tiff, dan berikut ini contoh tampilannya:

masukkan deskripsi gambar di sini

Memproses gambar ini dengan tesseract, tidak memberikan hasil yang baik.
Mengubah output ghostscript DPI (600, 300, 150, 96) menunjukkan bahwa gambar pada 96 DPI memberikan hasil terbaik dari tesseract tetapi masih belum memuaskan.

Sekarang saya berpikir untuk meminta saran filter mana yang akan meningkatkan gambar ini untuk pemrosesan OCR.

Saya bisa menggunakan imagemagick, atau numpy / scipy / ndimage

zetah
sumber

Jawaban:

2

Anda dapat menghapus ini menggunakan filter low-pass. baik itu dilakukan di ruang frekuensi, atau hanya mengambil (perbedaan) gaussian gambar.

low-pass gaussian, lalu perbedaan gaussians untuk dipertajam

Christoph Rackwitz
sumber