Saya mencoba menyalin dan menempelkan teks dari file PDF.
Namun, setiap kali saya menempelkan teks asli itu adalah kekacauan besar karakter yang kacau. Teksnya terlihat seperti berikut (ini hanya satu ekstrak kecil):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Saya sudah mencobanya di pembaca PDF Adobe dan Foxit. Saya melakukan 'Simpan sebagai teks' di Adobe Reader dan file teks yang dihasilkan adalah teks kacau yang sama.
Adakah ide bagaimana saya bisa membuat teks ini tidak rusak? (Selain mengetik manual ... ada banyak teks untuk diekstraksi.)
Jawaban:
Cara termudah untuk menyiasatinya adalah dengan membuka file dalam versi terbaru Google Chrome dengan plugin membaca PDF bawaan . Kemudian Anda dapat menggunakan fitur pencarian Chrome untuk menemukan teks, dan salin-tempel berfungsi dengan benar.
Saya ingin memilih komentar pipitas pada jawaban Shiki, tetapi saya tidak memiliki kredibilitas :( Masalahnya mungkin pengkodean font khusus, bukan enkripsi . Di Acrobat, klik File -> Properties, lalu klik tab Font untuk melihat pengkodean , dan tab Security untuk melihat apakah itu terenkripsi.
sumber
Saya menemukan masalah ini dengan PDF yang saya buat, dan saya yakin saya melacak sumber masalahnya: menggunakan Pratinjau Mac OS X untuk mengurangi ukuran file PDF.
Saya telah membuat beberapa filter Kuarsa menggunakan Colorsync Utility untuk memampatkan gambar dalam PDF untuk mengurangi ukuran keseluruhan file PDF dengan gambar. Seperti yang dijelaskan di sini: http://www.macosxhints.com/article.php?story=20031106133852693
Saya menemukan bahwa saya dapat dengan mudah menyalin dan menempelkan teks dari file PDF asli (tidak terkompresi), tetapi setelah menjalankan PDF itu melalui filter Reduce File Size yang saya buat, PDF terkompresi yang dihasilkan tidak menyalin paste dengan jelas (tampak seperti string yang Anda posting).
Namun menjalankan PDF asli yang sama melalui fungsi Adobe Acrobat Pro's Document> Reduce File Size, PDF terkompresi yang dihasilkan dapat berhasil menyalin dan menempelkan teks.
Jadi, ini tidak sepenuhnya membantu dalam kasus Anda, dengan anggapan bahwa file PDF Anda diterima dari tempat lain dan Anda tidak dapat mengakses versi aslinya, jika memang dikompresi dengan cara tertentu. Tapi itu mungkin penjelasannya - bahwa file itu hancur entah bagaimana dalam upaya untuk mengurangi ukuran file.
Ini mungkin berguna untuk pembuat konten yang mengalami masalah serupa menyalin dan menempelkan teks dari PDF - berhati-hatilah menggunakan filter OS X Quartz untuk mengecilkan PDF Anda!
--edit-- Saya juga memperhatikan masalah ini saat menggabungkan PDF dengan Pratinjau. Dua sumber PDF dapat disalin dan ditempel dengan baik, tetapi ketika menyeret halaman dari satu file ke file lain, lalu menyimpan PDF gabungan, teks dalam dokumen gabungan tidak dapat disalin / ditempelkan. Ini adalah dua dokumen yang keduanya dihasilkan secara bersamaan dengan Filemaker Pro 11 di Mac - Saya tidak dapat membayangkan mereka akan memiliki pengkodean yang berbeda atau hal semacam itu.
sumber
Ada cara lain yang sangat mudah untuk membuat solusi :)
Cukup cetak dokumen menggunakan CutePdf, Adobe 2 Pdf printer atau hal serupa lainnya. Intinya adalah, bahwa Anda perlu mencetak ke dalam format pdf.
Dalam banyak kasus ini akan dengan mudah menghilangkan masalah.
sumber
Solusi yang berhasil untuk saya:
Hasilnya tidak sempurna, tetapi membuat saya 80% dari perjalanan ke sana dan memberi saya cukup teks sehingga saya tidak perlu menulis ulang semuanya!
sumber
ASK: (bekerja untuk saya di Windows 8, Acrobat XI, Office 2010)
Pilihan 1:
BINGO!
Komentar:
* Unduh hanya jika Anda belum menginstal XPS.
Pilihan 2:
Lakukan serupa, tetapi simpan sebagai gambar (png, tiff, ...), maka Anda harus menggabungkan semua halaman kembali dalam satu file "PDF".
sumber
Acrobat could not perform OCR on this page because: This page contains renderable text
Ada risiko bahwa informasi tersebut tidak dapat diambil sama sekali. Dokumen PDF pada dasarnya adalah satu dokumen di atasnya, satu teks sederhana, yang lain gambar. Saat Anda menyalin dan menempel dari dokumen, Anda menandai teks sambil melihat gambar, tetapi apa yang disalin ke clipboard Anda adalah bagian yang sesuai dari bagian teks.
Tergantung pada cara dokumen dibuat, kualitas dan ketersediaan bagian teks dapat sangat berbeda. Jika Anda menyimpan dokumen pengolah kata dalam format PDF, menggunakan Acrobat, Word, driver printer PDF atau metode lainnya, kualitasnya biasanya akan sangat baik, karena file teks dapat dibuat dari teks aslinya. Beberapa karakter khusus mungkin terdistorsi, tetapi teks biasa biasanya baik-baik saja.
Namun, jika dokumen dibuat dari gambar yang dipindai, bagian teks biasanya dibuat oleh OCR pemrosesan gambar, yang dapat menghasilkan hasil yang agak menyedihkan, terutama jika aslinya kurang optimal untuk tujuan tersebut.
Program buruk yang digunakan untuk membuat PDF, atau pengaturan yang salah, mungkin juga menyebabkan bagian teks menjadi benar-benar kacau, seperti yang dapat dipahami, beberapa jenis enkripsi dijalankan pada file setelah dibuat.
Intinya adalah, jika bagian teks dari dokumen benar-benar buruk, tidak ada cara untuk membuatnya lebih baik. Taruhan terbaik Anda adalah dengan menghapus bagian teks sama sekali, dan minta program mengulangi proses OCR. Saya pikir itu bisa dilakukan dari dalam Acrobat, tapi saya tidak sepenuhnya yakin.
sumber
Salah satu alasan yang mungkin untuk hal ini adalah bahwa penyematan font dalam PDF menggunakan penyandian khusus, yang tidak diterapkan dengan benar saat menyalin teks dari PDF.
Anda dapat menerapkan berbagai metode untuk menyelamatkan diri Anda dari mengetik semua konten secara manual.
sumber
Salah satu pengguna saya baru saja melaporkan masalah yang sama (PDF dibuat dengan Distiller untuk Windows), bahwa teks yang disalin hanya berupa teks yang kacau dan dia tidak dapat mencari di dalam dokumen. Saya mencoba di Mac saya dan tidak menemukan masalah. Ternyata, saya menggunakan aplikasi Pratinjau Apple, sementara ia menggunakan Adobe Reader di mesin Windows-nya. Kemudian saya mencoba Adobe Reader pada Mac saya dan menghadapi efek yang sama. Bagi saya sepertinya:
Adobe Reader bergerak-gerak dan mencari dalam teks yang disimpan.
Pratinjau Apple akan menyalin dan mencari setelah menerapkan vektor pengodean.
Saya tidak bisa mengatakan ini dengan pasti, tetapi itu akan menjelaskan pengamatan saya. Dan memang akan memungkinkan untuk membuat semua jenis pengkodean saat menyimpan file gabungan / dikurangi seperti yang dijelaskan dalam posting lain di sini: dengan Preview Anda masih bisa mengeluarkan teks lagi.
Pertama saya pikir akan lebih logis untuk menyandikan subset font yang tertanam sebagai entri yang berdekatan daripada meninggalkan lubang di dalam dan menggunakan lokasi karakter asli. Tetapi kemudian saya menyadari, bahwa dengan menggunakan vektor pengkodean ke subset font dengan entri asli, karakter yang sering digunakan dapat memiliki lebih sedikit bit diatur ke 1 dalam byte mereka dan dapat dikompresi dengan cara yang lebih baik (dapat menurunkan entropi dari keseluruhan teks dengan cara ini).
sumber
Mengunggahnya ke Google docs dan Menggunakan opsi View> Plain HTML , memberikan teks yang dapat disalin teks menjadi benar sekitar 80% dengan sedikit ruang yang hilang.
Utas ini dengan jawaban yang diterima untuk masalah yang sama menjelaskan ini dengan contoh yang berfungsi.
sumber
Saya belum mencoba opsi Google Documents karena masih belum didukung di kantor saya. Namun, dengan mencetak file ke "ScanSoft PDF Create!" dari "Acrobat 9" (mencetak seluruh file ke gambar) dan membuka file yang dicetak dalam "Nuance PDF Converter" (itu mendorong saya jika saya ingin membuat file gambar dapat dicari dan diedit, yang saya pilih), saya dapat memiliki dokumen Word yang dapat dengan mudah saya salin dan tempel. Ini tidak sempurna meskipun dengan akurasi hanya sekitar 80-90%. Tapi hei, Anda masih memiliki file PDF asli untuk dibandingkan dengan dan mengimbangi bagian-bagian yang tidak dapat diperbaiki. Menghemat waktu mengetik semuanya. 2c saya
sumber
Saya membuat beberapa teks PDF yang dapat diedit dengan versi lama Scansoft PDF Converter untuk Windows XP, dan kemudian menggabungkan halaman-halaman dalam program Pratinjau Mac. Untuk setiap halaman terpisah, saya bisa mencari, menyalin, dan mengekspor teks dengan benar dari Adobe Reader di Mac. Ketika dikombinasikan oleh Pratinjau dan disimpan sebagai satu file, semua tampak bagus di layar, tetapi hanya beberapa bagian yang dapat dicari / diekspor dengan benar. Masalah itu membawaku ke sini.
Tulisan di sini memberi saya beberapa petunjuk bagus (terima kasih!). Saya melihat properti file untuk font. File halaman tunggal dari Win XP (di mana semuanya baik-baik saja) mengatakan encoding adalah ANSI. File yang digabungkan dalam Preview (di mana teks yang disalin dikacaukan) menunjukkan pengkodean untuk sebagian besar font sebagai "Built-in" dengan beberapa sebagai "Roman."
Solusi untuk masalah saya ada di bawah hidung saya sepanjang waktu - program Scansoft sendiri dapat menggabungkan file. Ketika saya menggunakan combiner Scansoft, dan membuka file di Mac, semua font ditampilkan sebagai ANSI-encoded dan semua teks diekspor / disalin dengan sempurna. Mengapa di Bumi saya tidak menggabungkan mereka dalam PDF Converter, saya tidak tahu. Terima kasih, poster!
Hal yang sama berlaku membuka file di sistem Linux.
Saya tahu ini tidak menjelaskan masalah khusus Windows - kecuali jika PDF memiliki asal-usul campuran yang serupa?
sumber