Adakah program OCR tulisan tangan sumber terbuka (baik, gratis) yang bagus?

16

Judul menanyakan semuanya. Di hadapan saya ada tugas entri data yang saya tidak terlalu antusias: 50-100 halaman tulisan tangan / log masuk.

Format log dapat membantu. Halaman dipartisi menjadi baris dan kolom yang digambarkan dengan jelas (13r x 6c dengan baris tajuk tambahan yang diketik). Lebih lanjut membantu saya adalah bahwa tiga kolom terkait dengan tanggal / waktu (tanggal, waktu habis, waktu masuk). Selain itu, data dalam dua kolom (sumber daya dan nama) lebih atau kurang disebutkan, sehingga, misalnya, nama "Smith" dapat muncul berulang kali di kolom nama, setiap kali dengan tulisan tangan yang sama. Kolom terakhir, "Catatan", adalah formulir gratis, tetapi jika saya bisa mengotomatiskan 6 kolom sebelumnya, saya tidak keberatan memasukkan Catatan dengan tangan.

Ada saran? (Selain 'mulai mengetik'.)

PS Jika ada situs SE yang lebih baik untuk menanyakan hal ini, beri tahu saya, saya akan bertanya di sana.

psoft
sumber
1
Bisakah Anda memposting sampel scan log?
Martin Thompson
1
Jangan repot-repot dengan Captricity - mereka meminta email Anda, dan mengirim ua "tautan email" tanpa tautan.
Dan inilah yang terjadi ketika Anda menjadi bingung dengan istilah «open source» dan «gratis» ... bahwa Anda memiliki perusahaan yang mencoba untuk mendapatkan keuntungan di pasar memberikan gagasan bahwa «open source» sama dengan «buruk ».
Joan

Jawaban:

6

tesseract mungkin adalah perpustakaan OCR terbaik dan paling luas.

Telah diuji dengan tulisan tangan dan tidak terlalu buruk - meskipun tulisan tangan bukan hal yang mudah dibaca. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
sumber
Tesseract tentu saja merupakan pilihan yang baik jika Anda melihat sumber bebas / terbuka. Ini bukan 100%, tetapi sebagian besar waktu mendapatkan hasil yang cukup akurat.
Kapten Kenpachi
4

Jika Anda memiliki di bawah 10 halaman, Captricity dapat melakukannya secara gratis.

Out of the box, tidak ada solusi open source yang baik untuk apa yang Anda cari. Solusi berbayar mahal untuk dilisensikan. Ini berdasarkan pengalaman kami membangun layanan OCR tulisan tangan di Captricity . Kami menggunakan tesseract dalam produksi, tetapi hanya sebagai suara yang dikombinasikan dengan kecerdasan manusia (crowdsourcing) untuk memberikan kualitas tingkat tinggi.

Semoga itu bisa membantu!

kuang
sumber