Teks Fisik Ke Teks Digital

9

Biarkan saya awali dulu pertanyaan ini dengan, saya tidak tahu situs StackExchange mana yang paling tepat untuk pertanyaan ini, tapi saya pikir LifeHacks mungkin berfungsi ...

Pada tahun 1998 sisi keluarga ibuku mengadakan reuni keluarga besar (nenek buyutku punya sepuluh anak jadi itu benar-benar pertemuan besar). Salah satu Paman jauh saya menulis semacam buku tentang sejarah keluarga kami untuk reuni ini dan ibu saya memberi saya buku untuk dibaca. Saya tidak percaya seberapa besar dan seberapa banyak penelitian yang dilakukan dalam buku ini. Saya ingin mencari cara untuk mendapatkan seluruh buku di situs web yang akan saya buat di mana saya bisa membaginya dengan semua orang di keluarga kami dan pada akhirnya melestarikan sejarah lebih lama dari yang bisa dilakukan buku tipis ini.

Dengan harapan saya tidak perlu mengetik kata demi kata seluruh buku 300 halaman ini apakah ada cara di mana saya bisa memindai halaman dan mendapatkannya dalam teks digital? Jelas saya hanya bisa mengambil gambar dan membuat situs web menggunakan gambar-gambar itu, tetapi saya merasa akan lebih bermanfaat untuk menjadikannya teks yang sebenarnya karena mungkin akan muncul di pencarian Google lebih baik ketika seseorang mencari nama anggota keluarga atau sesuatu seperti itu. Juga, jika seseorang dalam keluarga itu pernah melakukan mungkin sebuah proyek penelitian tentang keluarga kita, mereka akan dapat menyalin beberapa teks dan merujuknya dengan lebih mudah.

Jadi, adakah yang tahu cara terbaik untuk mendapatkan buku keluarga lama ini menjadi teks digital?

Halaman depan buku

Buku menunjukkan ketebalan

Kyle Bridenstine
sumber

Jawaban:

14

Gunakan ponsel android dan fitur " Google Lens. " Baru-baru ini ditambahkan ke aplikasi foto dan scrwwn ulasan foto kamera.

OCR melalui Google Lens sangat luar biasa dan akurat di luar perangkat lunak OCR yang pernah saya gunakan.

Di bawah ini adalah beberapa screenshot yang menjelaskan prosedur menggunakan Nokia 3 yang murah (100 USD) , ponsel terbaik yang pernah saya gunakan sejak Nexus 4 kesayangan saya menyerah.

Saya akan merinci contoh pemindaian OCR dari buku etimologi Yunani yang dicetak pada tahun 1976 yang saya tidak berani sobek untuk pemindaian, yang tampaknya memiliki kepadatan karakter dan jenis huruf yang mirip.

Saya mengambil gambar asli ini dalam kondisi pencahayaan yang kurang ideal, menggunakan semua pengaturan otomatis pada kamera ponsel biasa, tidak ada teknik foto khusus atau perlengkapan untuk meningkatkan hasil yang digunakan, Anda bisa mengatakan itu hanya foto ponsel yang diambil secara amatir dari halaman buku . (Pastikan teks fokus, tidak ada OCR yang akan menguraikan teks tidak fokus buram)

masukkan deskripsi gambar di sini

Klik ikon lensa Google, tersedia melalui pratinjau setelah mengambil gambar atau pada foto itu sendiri menggunakan aplikasi foto Google

masukkan deskripsi gambar di sini

Ini -Skynet- ^M^M^M^M^M^MMaksud saya, Google Lens melakukan pemindaian ajaibnya (titik-titiknya agak menyeramkan tetapi mereka harus melakukan sesuatu untuk memberi tahu Anda bahwa googley AI melakukan hal itu, saya kira)

masukkan deskripsi gambar di sini

Setelah gambar dipindai, Anda akan menemukan area teks yang Google Lens temukan pada gambar dengan jelas diuraikan dan teks mereka sudah diekstraksi ke bagian bawah layar. jika Anda hanya menginginkan beberapa area dan bukan yang lain, cukup sentuh pilihan Anda untuk mengaktifkan / menonaktifkannya.

Jika Anda menyentuh teks yang diekstrak, itu akan ditempatkan di clipboard Anda untuk kebaikan salin / rekat di mana saja di ponsel Anda.

masukkan deskripsi gambar di sini

Setelah itu, cukup tempel teks pada dokumen Google docs . Di sana, Anda dapat: - memperbaiki kesalahan apa pun di sana atau di PC Anda, - membagikan dokumen ke isi hati Anda, - menerbitkannya sebagai halaman web dengan pembaruan langsung hasil edit Anda, atau - ekspor ke - teks biasa, - dokumen kata , - dokumen kantor terbuka, - buku elektronik epub yang kompatibel dengan kindle dengan teks pemantulan, atau - good Non-DRMd PDF

Dapat dikatakan bahwa ini mungkin rute terpendek menuju penerbitan, dengan pilihan keluaran seluas mungkin.

Anda dapat melakukan semuanya dari satu perangkat, (ponsel Android dengan aplikasi yang sesuai diinstal) dan selesai dalam waktu singkat dengan tingkat akurasi yang tinggi, pada dasarnya gratis.

Berikut adalah dokumen Google yang ditempelkan Fragmen
masukkan deskripsi gambar di sini

Di sini adalah berbagi URL Google docs, jangan ragu untuk berkomentar. Anda juga dapat meminta seseorang membantu Anda mengedit dokumen dari jarak jauh dan secara bersamaan.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Akhirnya di sini adalah situs Google Sites yang diterbitkan menggunakan dokumen tersebut sebagai sumber tertaut

https://sites.google.com/h-lo.me/ocrsample

Ini https, desktop dan seluler diaktifkan dan tergantung selera, umumnya bukan sakit mata. Tidak buruk untuk pekerjaan total 15 menit dan tidak ada pengkodean apa pun.


Ada satu penyempurnaan yang tersisa, dan itu adalah untuk membuat paragraf yang tepat pada dokumen Google, karena Google Lens memasukkan pengembalian yang sulit setelah setiap baris teks yang diekstraksi, yang membuat setiap baris itu paragraf sendiri dan ini akan menjadi masalah jika Anda ingin menggunakan Google Documents fitur seperti daftar isi , atau ketika Anda mengekspor dokumen Anda ke buku elektronik e-pub kindle yang kompatibel (mengacaukan teks yang direfleksikan)

Anda bisa saja bergabung dengan setiap baris jika perlu dengan menekan tombol backspace pada setiap awal baris, atau ini bisa otomatis dengan skrip.

Jadi, saya sedang menulis add-on skrip aplikasi yang akan saya publikasikan segera untuk mengotomatiskan proses ini. Saya akan memberi tahu Anda di sini setelah selesai.

hlecuanda
sumber
Sangat detail. Saya suka solusi gratis ini. Terima kasih!
Kyle Bridenstine
Dengan senang hati! Anda bahkan mungkin sudah memiliki semua yang Anda butuhkan! :)
hlecuanda
Untuk buku tebal, ini adalah pendekatan yang sangat padat karya: Anda harus membalik setiap halaman secara manual dan kemudian memotretnya.
Hobbes
6

Anda dapat melakukan ini secara bertahap. Mulailah dengan meletakkan segala sesuatu secara online sebagai pemindaian halaman dan memperbarui kapan dan kapan saja. Penjilidan sisir plastik cerlox ™ membuatnya mudah dipisahkan dan dimasukkan kembali ke penjilidan.

Karena pencetakan tampaknya merupakan tipe serif normal dengan ukuran yang sama, pemindaian dapat didigitalkan dengan menggunakan perangkat lunak Pengenalan Karakter Optik. OCR dapat memberi Anda draft file teks yang dapat Anda koreksi dan terbitkan di situs web untuk bentuk terakhirnya.

Pada saat yang sama, Anda dapat merapikan gambar dan bahan gambar lainnya.

Anda dapat melakukan ini ketika waktu / sumber daya tersedia bagi Anda untuk proyek tersebut.

Stan
sumber
Mirip dengan jawaban sebelumnya, tetapi tidak serinci.
Trajan Espelien
@TrajanEspelien Apa jawaban sebelumnya? Periksa stempel waktu. Jawabannya adalah pertama, dua hari sebelum pengajuan hiecuanda. :)
Stan
Ya tapi itu tidak memiliki detail sebanyak jawaban lain itulah sebabnya saya menerima yang lain atas ini. Ini bukan server first come first .. itu jawaban terbaik.
Kyle Bridenstine
@KyleBridenstine No Kidding! Saya juga memilih hiecuanda. Itu jawaban yang bagus. Omong-omong, bagaimana jika Anda tidak memiliki ponsel Android atau tidak dapat mengakses Glass? Saya memberikan jawaban umum untuk pertanyaan itu. :)
Stan
1
@KyleBridenstine Terima kasih atas kata-kata baiknya. Kami setuju. Saya pikir Anda melakukan hal yang benar dengan menunggu. Jawaban pertama adalah TIDAK terbaik (kecuali yang untuk beberapa alasan. Ada tenggat waktu, setelah semua.) Aku mengirim link untuk pertanyaan dan jawaban yang besar hiecuanda untuk seorang rekan yang telah melakukan hal yang sama dengan tumpukan catatan sekolah dari Brazil!
Stan
2

Beberapa jawaban bagus di sini untuk mendekatinya sendiri.

Saya ingin menambahkan pengalaman saya membayar orang lain untuk melakukannya untuk Anda.

Saya menggunakan Digitize My Books di Inggris (Saya sendiri yang berbasis di Inggris).

Saya sangat senang dengan hasilnya: Setiap buku dikembalikan sebagai PDF yang memiliki teks yang dapat dicari (dan dapat disalin). Teknik PDF standar digunakan di mana gambar asli untuk setiap halaman dipertahankan tetapi dengan overlay teks, sehingga Anda dapat menyorot teks asli pada halaman. Nilai yang sangat baik Sebagai seseorang di luar negeri dari Inggris, Anda masih dapat mengirim buku-buku itu kepada mereka.

Mereka juga menawarkan opsi untuk buku dalam format dokumen word yang dapat diedit, dengan biaya tambahan tetapi sangat masuk akal.

Jika Anda tidak meminta dokumen asli dikembalikan, maka opsi termurah adalah memilih pemindaian yang merusak. Di sinilah halaman diambil secara individual dari buku dan dipindai. Secara default, buku asli tidak dikembalikan, meskipun saya yakin Anda dapat memintanya, mungkin dengan biaya tambahan (mis. Untuk ongkos kirim kembali) tetapi halaman akan longgar, setelah dihapus untuk dipindai secara individual. Pemindaian yang merusak adalah opsi yang saya pilih untuk semua buku saya dan saya tidak meminta dokumen asli dikembalikan.

Mereka juga menawarkan penyalinan non-destruktif jika Anda memang membutuhkan aslinya, tetapi biayanya lebih tinggi. Mereka juga menerima pemindaian digital Anda sendiri jika Anda telah memindai buku sendiri - mereka dapat membuatnya menjadi dokumen PDF atau Word Word yang dapat dicari dan dapat disalin.

Lihatlah situs web mereka. Saya benar-benar berpikir bahwa ini adalah pilihan terbaik: menghabiskan uang untuk menghemat waktu, daripada menghabiskan waktu untuk menghemat uang.

Saya tidak bekerja untuk Digitize My Books, juga tidak memiliki kepentingan finansial di dalamnya (pemegang saham atau lainnya).

Awalnya saya sudah mulai "memindai" di buku sendiri, dengan memotret menggunakan Kamera DSLR (memotret lebih cepat dari pemindaian flatbed) dengan setiap halaman dibuka dengan klip clipboard dan blu-tak. Tetapi saya menemukan ini agak padat karya.

Jika Anda masih ingin melakukannya sendiri, ScanTailor adalah Aplikasi Windows Open Source yang akan memformat, membagi dua halaman / pasang halaman sebagai dipindai ke halaman individual, luruskan dan "dewarp" mereka. Sehingga halaman yang dihasilkan tampak datar dan lurus seperti yang diinginkan, namun tidak melakukan OCR: hasilnya adalah gambar bitmap. Tetapi paling tidak perlu beberapa cara untuk mengotomatiskan merapikan setiap distorsi halaman, khususnya penyalinan non-destruktif di mana sulit bagi seseorang untuk mengatur halaman agar benar-benar datar untuk buku-buku besar.

Diperbarui

Menambahkan informasi lebih lanjut tentang opsi pemindaian yang ditawarkan oleh layanan. ScanTailor info lebih lanjut. Koreksi tata bahasa.

therobyouknow
sumber
1

Cara tercepat untuk melakukan ini adalah dengan menghubungi kerabat Anda dan melihat apakah mereka masih memiliki file asli yang mereka gunakan untuk membuat buku itu. Dari foto halaman depan saya akan mengatakan itu dibuat di komputer. Konversi dari {masukkan paket pengolah kata yang sangat lama di sini} ke format saat ini dan Anda selesai.

Cara tercepat kedua untuk mengubah tumpukan materi cetak menjadi dokumen digital:

  1. Hapus ikatannya.
  2. Potong tepi kiri halaman untuk menyingkirkan lubang. Lubang mengganggu pengumpan dokumen.
  3. Bacalah buku ini dan buka lipatan dan kerusakan lainnya yang akan mengganggu pengumpan dokumen.
  4. Temukan printer dupleks modern yang memiliki pengumpan dokumen dan fitur pemindaian. Pindai ke PDF.

Kemudian gunakan paket OCR untuk mengubah halaman yang dipindai menjadi file Word. Saya menggunakan fitur OCR dalam versi lengkap Adobe Acrobat untuk tujuan ini, tetapi ada banyak mesin OCR di sekitarnya.

Hobbes
sumber
0

Anda mungkin ingin mencoba layanan yang sangat murah: preservate-your-memories.info. Saat melakukannya sendiri, saya menggunakan pemindai saya untuk memindai ke OmniPage, program OCR, dan kemudian menyimpan sebagai file pdf yang benar-benar dapat dicari. Karena publikasi Anda terikat sisir plastik, mudah dipisahkan untuk memindai setiap halaman & kemudian membukanya kembali. Mengambil gambar sebagaimana diuraikan dalam saran di atas juga sangat bisa dilakukan - yang bagus di antara banyak pendekatan.

Alan
sumber