Saya memiliki beberapa ribu halaman halaman buku yang dipindai. Setiap halaman disimpan secara individual sebagai JPG. Tulisannya jelas, tetapi fontnya bervariasi, dan halaman-halamannya memuat gambar dan ilustrasi.
Saya perlu membuat daftar semua kata yang muncul di setiap file JPG. Apakah ada alat baris perintah untuk memindai gambar yang mencantumkan kata-kata yang muncul? Tidak perlu memiliki pemindaian yang sempurna, hanya perkiraan.
command-line
ocr
Desa
sumber
sumber
Jawaban:
tesseract mungkin adalah solusi yang paling banyak digunakan di sini. Ini tersedia di sebagian besar repositori paket, misalnya,
dan dapat digunakan dengan
sumber
Instal
imagemagick
,pdftotext
(ditemukan dalam paket bernamapoppler-utils
dalam beberapa manajer paket) dan ocrmypdf . Yang terakhir adalah yang cepat (ocr membutuhkan banyak cpu, dan dikonfigurasi untuk menggunakan semua core Anda), open-source dan bagian yang sering diperbarui dari perangkat lunak OCR. Pendekatan ini mungkin berlebihan karena benar-benar mencoba untuk menetapkan string untuk setiap kata, bukan hanya label kata, tapi saya punya banyak kesulitan menemukan perangkat lunak OCR opensource yang baik dan mudah digunakan secara umum. Kemudian, di direktori tempat Anda menyimpan semua JPG Anda:sumber
ocrmypdf
membuat hari sayaFile gambar kelas atas .png sebesar 480%, ubah ke skala abu-abu, isi ulang dengan warna putih, pertajam lalu ekstrak menggunakan OCR tesseract. Ini berfungsi dengan baik sebagian besar waktu bagi saya, kecuali font yang sangat besar, dan putih di atas hitam. Jika fontnya sangat besar hanya kelas atas 200% atau 300%.
Hasilnya di file.txt.
sumber
Untuk pengguna linux, tidak ada yang berhasil serta menggunakan Calibre untuk mengkonversi pdf ke docx. https://calibre-ebook.com/download_linux
sumber
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Sumber: https://help.ubuntu.com/community/OCR
sumber