Judul menanyakan semuanya. Di hadapan saya ada tugas entri data yang saya tidak terlalu antusias: 50-100 halaman tulisan tangan / log masuk.
Format log dapat membantu. Halaman dipartisi menjadi baris dan kolom yang digambarkan dengan jelas (13r x 6c dengan baris tajuk tambahan yang diketik). Lebih lanjut membantu saya adalah bahwa tiga kolom terkait dengan tanggal / waktu (tanggal, waktu habis, waktu masuk). Selain itu, data dalam dua kolom (sumber daya dan nama) lebih atau kurang disebutkan, sehingga, misalnya, nama "Smith" dapat muncul berulang kali di kolom nama, setiap kali dengan tulisan tangan yang sama. Kolom terakhir, "Catatan", adalah formulir gratis, tetapi jika saya bisa mengotomatiskan 6 kolom sebelumnya, saya tidak keberatan memasukkan Catatan dengan tangan.
Ada saran? (Selain 'mulai mengetik'.)
PS Jika ada situs SE yang lebih baik untuk menanyakan hal ini, beri tahu saya, saya akan bertanya di sana.
Jawaban:
tesseract mungkin adalah perpustakaan OCR terbaik dan paling luas.
Telah diuji dengan tulisan tangan dan tidak terlalu buruk - meskipun tulisan tangan bukan hal yang mudah dibaca. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
sumber
Jika Anda memiliki di bawah 10 halaman, Captricity dapat melakukannya secara gratis.Out of the box, tidak ada solusi open source yang baik untuk apa yang Anda cari. Solusi berbayar mahal untuk dilisensikan. Ini berdasarkan pengalaman kami membangun layanan OCR tulisan tangan di Captricity . Kami menggunakan tesseract dalam produksi, tetapi hanya sebagai suara yang dikombinasikan dengan kecerdasan manusia (crowdsourcing) untuk memberikan kualitas tingkat tinggi.
Semoga itu bisa membantu!
sumber