Tesseract OCR, Kesalahan halaman kosong?

5

Saya mengkompilasinya dari sumber dengan leptonica. Ini adalah gambar png dengan latar belakang transparan, yang saya edit menambahkan warna biru dan masih ada kesalahan ini:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!

Inilah input gambar:

enter link description here

Jim
sumber

Jawaban:

5

coba opsi psm.

-psm N
    Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.

Referensi: http://hilojack.sinaapp.com/?p=866

zx1986
sumber
3

Memproses gambar Anda menjadi warna latar ambang. Ubah warna teks menjadi hitam (untuk pengenalan yang lebih baik. Setelah Anda mengirik latar belakang, seharusnya cukup sederhana untuk mengubah nilai warna.) Ubah gambar Anda menjadi skala abu-abu. Kemudian konversikan ke .tif format.

Sekarang Anda mungkin memiliki kesempatan untuk memproses gambar itu (pengguna super tidak membiarkan saya memposting gambar jadi saya menautkannya):

Gambar yang Diproses

Sekarang jalankan perintah berikut:

tesseract test.tif test_output -psm 7

dan hasilnya adalah:

Tist

Yang cukup bagus mengingat bahwa saya belum menggunakan data pelatihan tambahan di samping eng standar.

Tangkapan layar hasilnya

Arijoon
sumber
2

Tesseract tidak terlatih untuk mengenali tulisan tangan. Tidak tahu apa fungsinya dengan warna-warna itu.

Anda bisa mencoba dan melatih tesseract dengan tulisan tangan itu ...

reiniero
sumber