Saya telah melihat beberapa ebook / kertas yang tampaknya dipindai dari versi kertas mereka tetapi teks dalam ebooks / kertas luar biasa dapat disalin. Saya kira versi yang dipindai langsung harus diproses oleh beberapa perangkat lunak Pengenalan Karakter Optik.
Jadi saya ingin tahu apa saja software Pengenalan Karakter Optik yang direkomendasikan? Terutama yang untuk Ubuntu atau gratis? Jika itu untuk Windows jauh lebih unggul, beri tahu saya juga.
Saya khususnya tertarik pada OCR yang dapat menerima file pdf yang dipindai sebagai input dan masih menghasilkan sebagai output file pdf lain yang terlihat sama dengan input tetapi dengan teks yang dapat disalin.
Terima kasih dan salam!
Harap batasi satu perangkat lunak per jawaban
Proyek lain yang harus dapat melakukan ini adalah gscan2pdf
Proyek ini juga dapat menggunakan Tesseract, serta alat OCR open source lainnya.
sumber
Saya tidak tahu OCR untuk Ubuntu, tetapi untuk Windows ada satu yang memiliki fitur yang Anda butuhkan. Itu ABBYY FineReader ini adalah halaman tetapi tidak gratis
sumber
Solusi gratis ada di repos, CunieForm (dan YAGF sebagai antarmuka Gnome untuk itu)
sumber
Sepertinya proyek Decapod melakukan atau akan mengekspor ke PDF, jadi Tesseract harus entah bagaimana mengekspor informasi yang diperlukan untuk mengetahui di mana teks apa yang ditemukan.
sumber
Adobe Acrobat (bukan pembaca, bukan aplikasi gratis) mampu OCR-ing dokumen PDF yang dipindai dan menambahkan lapisan teks tak terlihat di atas gambar, sehingga teks dapat dipilih dan disalin. Sayangnya saya tidak memiliki kemudahan untuk memeriksa di mana tepatnya fitur itu berada di UI Acrobat, tetapi saya telah berhasil menggunakannya beberapa kali untuk tujuan yang sama seperti yang Anda sebutkan.
Dan ya, ini adalah perangkat lunak Windows, bukan Linux, tetapi menurut database aplikasi Wine HQ, ia berfungsi di bawah Wine .
sumber
Perangkat lunak OCR terbaik biasanya tertanam dalam printer / pemindai / mesin fotokopi. Canon IRC 3880 di kantor saya dapat menghasilkan pdf OCR yang luar biasa lebih mudah dan lebih cepat daripada program desktop apa pun yang saya tahu. Letakkan buku di baki (tidak terikat), pilih alamat surat Anda, tekan tombol hijau.
Sebagian besar pdf OCR yang dapat Anda temukan di internet berasal dari mesin yang serupa. Masalahnya adalah bahwa harga terlalu tinggi untuk penggunaan di rumah (sekitar 12.000 euro IRC).
sumber
Perangkat lunak OCR online gratis favorit saya ditawarkan oleh Ricoh Innovations. Ini adalah program beta, tetapi saya merasa ini berfungsi dengan baik. Lihat di: http://beta.rii.ricoh.com/betalabs/content/document-conversion
sumber
OCRFeeder
Ini adalah aplikasi GUI.
Ia menggunakan tesseract-ocr atau ocrad sebagai mesin OCR.
Dapat menginstal dengan Pusat Perangkat Lunak atau dengan,
sumber
FineReader juga memiliki versi online. Ia mengklaim dapat memproses PDF sebagai format input --- http://finereader.abbyyonline.com/en/Help/Faq/
sumber