Bagaimana saya bisa mengekstrak teks dari gambar?

25

Bagaimana saya bisa mengekstrak teks dari gambar?

Saya tidak berbicara tentang file yang dipindai, tetapi berbagai gambar taman, seperti ketika Anda mengambil gambar papan tulis di kelas, dan itu ditulis tangan dengan baik; atau ketika Anda memotret halaman dari buku resep dan ingin resep dalam format teks.

Adakah perangkat lunak gratis dan terbuka untuk itu?

Saya mencoba tesseract, dan hasilnya mengerikan.

Strapakowsky
sumber
Saya membutuhkan OCR yang mendukung Bahasa Bengali dan Bahasa Inggris secara bersamaan.
alhelal

Jawaban:

26

Tindakan mengekstraksi teks dari gambar disebut OCRdan Ubuntu memiliki halaman wiki yang didedikasikan untuk OCR . Dari halaman itu:

Alat OCR yang tersedia

Repositori Ubuntu Universe berisi alat OCR berikut:

  1. gocr - Baris perintah OCR
  2. fuzzyocr - plugin spamassassin untuk memeriksa lampiran gambar
  3. libhocr0 - Ibrani OCR
  4. ocrad - program Pengenalan Karakter Optik
  5. ocrfeeder - Analisis tata letak dokumen dan sistem pengenalan karakter optik
  6. ocropus - analisis dokumen dan sistem OCR
  7. tesseract-ocr

Ubuntu multiverse respositories juga mengandung:

  1. runcing - sistem OCR multi-bahasa

Beberapa paket sudah usang, tetapi yang baru tidak resmi dapat ditemukan di Alex_P PPA (kode menambahkan PPA: ppa: alex-p / notesalexp). Jika Anda tidak pernah menggunakan PPA, periksa cara menambahkan perangkat lunak dari PPA .

sunting: Seperti yang ditunjukkan dalam komentar, Clara OCR juga ada, tetapi ada stuk di Hardy dan situs web mereka memiliki 2009 sebagai yang terakhir diperbarui.

Rinzwind
sumber
Apakah Anda memiliki pengalaman menggunakan semua itu untuk contoh yang saya jelaskan? Saya menjadi sedikit skeptis terhadap alat ocr biasa bagi mereka. Nomor 7 dalam daftar adalah yang saya coba dan jelas-jelas mengerikan.
Strapakowsky
Jika saya ingat, saya mencoba gocr juga, dengan hasil mengerikan yang setara. Jika Anda berhasil dengan salah satu dari itu, sintaks apa yang Anda gunakan? Terima kasih.
Strapakowsky
Tidak ada sama sekali! Saya tidak pernah repot dengan OCR: D Pencarian daging baru menunjukkan Clara OCR dan tesseract-ocr;) ( freshmeat.net/search/… )
Rinzwind
Apakah saya salah jika saya mengatakan bahwa penggunaan OCR yang berhasil membutuhkan pengetahuan tentang proses dan pengaturan yang cermat agar sesuai dengan gambar tertentu yang akan dipindai? Jadi, jika saya benar, hasil yang buruk mungkin disebabkan oleh pengguna dan bukan perangkat lunaknya.
NN
OCRberfungsi paling baik jika Anda tahu bagaimana gambar dibuat dan Anda sangat berpengalaman dalam menggunakan perangkat lunak yang Anda gunakan (yang terakhir menjadi alasan saya tidak pernah sempat menggunakannya).
Rinzwind
18

tesseract-ocrakan menjadi yang terbaik dibandingkan dengan yang lainnya. Untuk Instalasi, jalankan perintah sudo apt-get install tesseract-ocr.

Penggunaan adalah tesseract filename.jpg output.txt.

Perintah di atas akan menghasilkan output.txt.

Anda mungkin mempertimbangkan untuk memilih bahasa yang sesuai. Dalam hal ini Anda harus menginstal tesseract-ocr-LANGpaket, di mana LANGkode huruf ISO 639-2 tiga huruf . Saat ini Anda memiliki 123 bahasa pada 18,04 repo. Kemudian gunakan misalnya:

tesseract mySpanishText.jpg output -l spa
Sudhir Belagali
sumber
Hei, jadi ini berfungsi tetapi tidak akurat atau saya lebih suka mengatakan 80-85% akurat. Seperti contoh untuk gambar ini: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , itu mengacak $ sign dan juga sebagian besar tanda kurung. Persegi, bulat, keriting, semua tanda kurung adalah masalah, mereka tidak pernah diekstraksi dengan benar. Apakah Anda tahu ada perbaikan?
Milan Chheda