Konversi gambar ke teks

8

Saya mendapat dokumen gambar yang dipindai dari bank dan saya ingin mengubahnya menjadi dokumen teks biasa dengan gambar di Ubuntu.

Apakah ada alat untuk itu?

joe
sumber

Jawaban:

15

Ada sejumlah pembaca OCR untuk linux yang dapat mengkonversi dari gambar ke teks. Lihatlah opsi-opsi berikut:

Semua yang di atas, kecuali ocropus, hadir di repositori Ubuntu dalam paket dengan nama yang sama.

Pembaca yang berbeda mendukung format gambar yang berbeda, sehingga Anda mungkin terbatas dalam opsi dengan format file yang digunakan oleh dokumen Anda. Atau, Anda dapat menggunakan alat konversi dari ImageMagick untuk mengubah format jika Anda ingin menggunakan pembaca OCR tertentu.

Diadaptasi dari jawaban saya di sini .

Komunitas
sumber
0

Anda harus menginstal "tesseract-ocr" pada mesin linux Anda terlebih dahulu.

sudo apt-get install tesseract-ocr

Anda dapat melakukannya secara manual dari CLI atau saya telah membuat kode PHP untuk hal yang sama, Anda dapat menggunakannya jika Anda mau.

Catatan: Untuk menjalankan kode ini, perintah exec harus diaktifkan di php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

letakkan kode ini di folder root dan akses dari browser,

misalnya:

http://yourserver.com?input_file=1.png

Catatan: File 1.png harus ada di direktori Anda saat ini.

Saya tidak punya hak untuk mengunggah gambar, saya telah menggunakan gambar ini untuk referensi, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

Pragnesh Karia
sumber