PDF memiliki teks yang kacau saat menyalin paste

23

Saya mencoba menyalin dan menempelkan teks dari file PDF.

Namun, setiap kali saya menempelkan teks asli itu adalah kekacauan besar karakter yang kacau. Teksnya terlihat seperti berikut (ini hanya satu ekstrak kecil):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Saya sudah mencobanya di pembaca PDF Adobe dan Foxit. Saya melakukan 'Simpan sebagai teks' di Adobe Reader dan file teks yang dihasilkan adalah teks kacau yang sama.

Adakah ide bagaimana saya bisa membuat teks ini tidak rusak? (Selain mengetik manual ... ada banyak teks untuk diekstraksi.)

ngm
sumber
Coba beberapa utilitas pembaca layar (yang bekerja dengan jpeg, lakukan layar cetak dan begitulah ) atau di sini ada cara yang berbeda . (Hanya 'tebak', jangan gigit saya untuk itu. Saya menggunakan cara pertama saat itu. Semoga ada cara yang lebih nyaman).
Apache
Pertanyaan serupa: superuser.com/questions/119393/…
Hugh Allen
Saya juga dapat mengkonfirmasi masalah ini dengan OS X, setidaknya pada 10.8.2. Saya telah menghabiskan sedikit waktu melalui struktur file PDF, tapi sayangnya saya tidak bisa melihat cara untuk memperbaiki kerusakan. Acrobat Pro's "PreFlight" melaporkan masalah dengan file ketika memeriksa terhadap standar PDF / A, dan laporan Inventaris menunjukkan mesin terbang yang dipetakan terhadap karakter Unicode yang salah. Saya telah melaporkan bug dengan Apple - ID 12655651. Saya akan melaporkan kembali ke sini jika / ketika saya mendapatkan pembaruan.
KenD
Harus membantu superuser.com/a/481510/153937
Ankit

Jawaban:

11

Cara termudah untuk menyiasatinya adalah dengan membuka file dalam versi terbaru Google Chrome dengan plugin membaca PDF bawaan . Kemudian Anda dapat menggunakan fitur pencarian Chrome untuk menemukan teks, dan salin-tempel berfungsi dengan benar.

Saya ingin memilih komentar pipitas pada jawaban Shiki, tetapi saya tidak memiliki kredibilitas :( Masalahnya mungkin pengkodean font khusus, bukan enkripsi . Di Acrobat, klik File -> Properties, lalu klik tab Font untuk melihat pengkodean , dan tab Security untuk melihat apakah itu terenkripsi.

acatalept
sumber
Memang, pengkodean font khusus adalah penyebab bagi saya. Namun, Chrome bukan solusinya. Saya memecahkan masalah sebagian dengan Ghostscript meregenerasi PDF dari PS (saya beruntung memiliki sumber PS). Grup karakter apa pun yang LaTeX menerapkan ligatur (mis. Ff, c, fi, dll.) Tidak muncul dalam teks yang disalin dari PDF, yang memerlukan pengeditan saat Anda menyalin / menempel.
Fuhrmanator
1
Masalah yang sama dengan chrome
JinSnow
4

Saya menemukan masalah ini dengan PDF yang saya buat, dan saya yakin saya melacak sumber masalahnya: menggunakan Pratinjau Mac OS X untuk mengurangi ukuran file PDF.

Saya telah membuat beberapa filter Kuarsa menggunakan Colorsync Utility untuk memampatkan gambar dalam PDF untuk mengurangi ukuran keseluruhan file PDF dengan gambar. Seperti yang dijelaskan di sini: http://www.macosxhints.com/article.php?story=20031106133852693

Saya menemukan bahwa saya dapat dengan mudah menyalin dan menempelkan teks dari file PDF asli (tidak terkompresi), tetapi setelah menjalankan PDF itu melalui filter Reduce File Size yang saya buat, PDF terkompresi yang dihasilkan tidak menyalin paste dengan jelas (tampak seperti string yang Anda posting).

Namun menjalankan PDF asli yang sama melalui fungsi Adobe Acrobat Pro's Document> Reduce File Size, PDF terkompresi yang dihasilkan dapat berhasil menyalin dan menempelkan teks.

Jadi, ini tidak sepenuhnya membantu dalam kasus Anda, dengan anggapan bahwa file PDF Anda diterima dari tempat lain dan Anda tidak dapat mengakses versi aslinya, jika memang dikompresi dengan cara tertentu. Tapi itu mungkin penjelasannya - bahwa file itu hancur entah bagaimana dalam upaya untuk mengurangi ukuran file.

Ini mungkin berguna untuk pembuat konten yang mengalami masalah serupa menyalin dan menempelkan teks dari PDF - berhati-hatilah menggunakan filter OS X Quartz untuk mengecilkan PDF Anda!

--edit-- Saya juga memperhatikan masalah ini saat menggabungkan PDF dengan Pratinjau. Dua sumber PDF dapat disalin dan ditempel dengan baik, tetapi ketika menyeret halaman dari satu file ke file lain, lalu menyimpan PDF gabungan, teks dalam dokumen gabungan tidak dapat disalin / ditempelkan. Ini adalah dua dokumen yang keduanya dihasilkan secara bersamaan dengan Filemaker Pro 11 di Mac - Saya tidak dapat membayangkan mereka akan memiliki pengkodean yang berbeda atau hal semacam itu.

Daniel
sumber
Saya mendapat beberapa file pdf dari pengguna mac os. Pilih tidak apa-apa, tetapi salin & tempel hanya akan memberi Anda sampah. Coba sekelompok konverter pdf ke kata, termasuk googledoc, adobe save as text, semuanya memberikan teks yang kacau.
tigr
Saya menduga penyusutan OS X PDF adalah penyebabnya. Adakah yang tahu ada cara untuk "membatalkan" operasi semacam itu? Terima kasih!
tigr
Saya mencetak file pdf ke beberapa (virtual) printer, dan saya mendapat file pdf ukuran 4x meningkat. File yang dicetak jelas adalah gambar, tidak ada pilihan teks yang dapat dibuat, sedangkan yang asli dapat dipilih (meskipun kacau).
tigr
4

Ada cara lain yang sangat mudah untuk membuat solusi :)

Cukup cetak dokumen menggunakan CutePdf, Adobe 2 Pdf printer atau hal serupa lainnya. Intinya adalah, bahwa Anda perlu mencetak ke dalam format pdf.

Dalam banyak kasus ini akan dengan mudah menghilangkan masalah.

Nick Olszanski
sumber
2

Solusi yang berhasil untuk saya:

  • Unggah dokumen ke Google Drive / Documents
  • Google akan mengimpornya (per 2013) sebagai PDF
  • Buka tampilan PDF dan pilih File > Open With > Google Documents
  • Diperlukan waktu sekitar satu menit untuk mengekspor dokumen

Hasilnya tidak sempurna, tetapi membuat saya 80% dari perjalanan ke sana dan memberi saya cukup teks sehingga saya tidak perlu menulis ulang semuanya!

Gavin Miller
sumber
2

ASK: (bekerja untuk saya di Windows 8, Acrobat XI, Office 2010)

Pilihan 1:

  1. Cetak dari Acrobat menggunakan "Microsoft XPS Document Writer" Output adalah: "nama file Anda.oxps"
  2. Buka "... oxps" dengan XPS Viewer. * (lihat tautan unduhan dalam komentar di bawah)
  3. Cetak ke PDF (Acrobat PDF, atau CutePDF), menggunakan resolusi tertinggi (600 DPI).
  4. Buka dengan Acrobat dan gunakan opsi OCR (Searchable Image (Exact)).

BINGO!

Komentar:

  • Menggunakan resolusi tertinggi dan Gambar yang Dapat Dicari (tepat) akan menyimpan teks Anda tanpa kehilangan tampilan bersihnya. Resolusi rendah akan membuat teks Anda dapat dibaca, tetapi tampak jelek.
  • Unduh Microsoft XPS (file): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Jika Anda tidak tahu apa itu OCR, atau di mana menemukan Gambar yang Dapat Dicari (tepat), atau Cara mencetak menggunakan "Microsoft XPS Document Writer", TOLONG, Google sendiri, untuk pengalaman terbaik Anda sendiri.

* Unduh hanya jika Anda belum menginstal XPS.

Pilihan 2:

Lakukan serupa, tetapi simpan sebagai gambar (png, tiff, ...), maka Anda harus menggabungkan semua halaman kembali dalam satu file "PDF".

pengguna210118
sumber
1
Langkah 1,2 dan 3 tampak jauh ketika Anda bisa langsung beralih ke langkah 3 Cetak ke PDF. (Misalnya dari dalam pembaca PDF Anda). Tidak perlu memutar melalui XPS.
Hennes
@ Henry Melakukan langkah 4 menghasilkan kesalahanAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator
'teks yang dapat diurai' terdengar sebagai sesuatu yang masih perlu digambar (diterjemahkan). Kemungkinan sudah dilakukan dan disimpan sebagai bitmap yang bisa OCR jika Anda pergi melalui XPS. Tapi itu hanya dugaan saja.
Hennes
1

Ada risiko bahwa informasi tersebut tidak dapat diambil sama sekali. Dokumen PDF pada dasarnya adalah satu dokumen di atasnya, satu teks sederhana, yang lain gambar. Saat Anda menyalin dan menempel dari dokumen, Anda menandai teks sambil melihat gambar, tetapi apa yang disalin ke clipboard Anda adalah bagian yang sesuai dari bagian teks.

Tergantung pada cara dokumen dibuat, kualitas dan ketersediaan bagian teks dapat sangat berbeda. Jika Anda menyimpan dokumen pengolah kata dalam format PDF, menggunakan Acrobat, Word, driver printer PDF atau metode lainnya, kualitasnya biasanya akan sangat baik, karena file teks dapat dibuat dari teks aslinya. Beberapa karakter khusus mungkin terdistorsi, tetapi teks biasa biasanya baik-baik saja.

Namun, jika dokumen dibuat dari gambar yang dipindai, bagian teks biasanya dibuat oleh OCR pemrosesan gambar, yang dapat menghasilkan hasil yang agak menyedihkan, terutama jika aslinya kurang optimal untuk tujuan tersebut.

Program buruk yang digunakan untuk membuat PDF, atau pengaturan yang salah, mungkin juga menyebabkan bagian teks menjadi benar-benar kacau, seperti yang dapat dipahami, beberapa jenis enkripsi dijalankan pada file setelah dibuat.

Intinya adalah, jika bagian teks dari dokumen benar-benar buruk, tidak ada cara untuk membuatnya lebih baik. Taruhan terbaik Anda adalah dengan menghapus bagian teks sama sekali, dan minta program mengulangi proses OCR. Saya pikir itu bisa dilakukan dari dalam Acrobat, tapi saya tidak sepenuhnya yakin.

Emil
sumber
1

Salah satu alasan yang mungkin untuk hal ini adalah bahwa penyematan font dalam PDF menggunakan penyandian khusus, yang tidak diterapkan dengan benar saat menyalin teks dari PDF.

Anda dapat menerapkan berbagai metode untuk menyelamatkan diri Anda dari mengetik semua konten secara manual.

  1. Apakah Anda mencoba mengekstrak teks dengan salah satu alat 'pdftotext.exe' yang dapat diunduh di seluruh 'internet? (Saya akan merekomendasikan yang disertakan dalam ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. Versi terbaru dari Acrobat Reader memiliki opsi "Simpan sebagai Teks ..." . Ini tidak menggunakan "copy'n'paste" (yang memberi Anda teks kacau), tetapi mungkin menggunakan rutin perangkat lunak yang sama seperti yang digunakan untuk rendering teks di layar, dan karenanya dapat menghasilkan hasil yang lebih bermanfaat.
  3. Jika '2.' tidak berfungsi, dan jika Anda memiliki akses ke Acrobat Professional: cobalah untuk menyaring ulang PDF menggunakan salah satu profil Distiller yang menggunakan font.
  4. Jika '3.' tidak berfungsi, meskipun Anda memiliki akses ke Acrobat Professional: cobalah untuk menyaring ulang PDF, tetapi kali ini Anda harus menggunakan opsi 'print as image' (tersedia melalui tombol 'Advanced' di sudut kiri bawah dari cetakan utama dialog). Pastikan Anda menggunakan 600dpi (walaupun itu mungkin menghasilkan file besar). PDF yang dihasilkan Anda kemudian buka lagi di Acrobat Pro. Sekarang terapkan algoritma 'OCR' Acrobat ke file, yang akan menghasilkan teks yang disematkan (tidak digunakan untuk menampilkan di layar dalam Pustaka, tetapi digunakan untuk mencari dan menyoroti string). Sekarang Anda dapat mencoba lagi untuk mengekstrak teks dari PDF ini, menggunakan salah satu dari metode yang dibahas di atas.
Kurt Pfeifle
sumber
Bagi saya, menggunakan Acrobat Pro XI untuk mencetak ulang ke PDF - tetapi dengan "Print as Image" dicentang (pada 600 dpi) di tombol Advanced ... / sub-dialog dari dialog Print ... - adalah triknya. Kemudian Anda akhirnya dapat OCR hasilnya dengan benar . Tidak ada solusi lain yang menyebutkan halaman ini berfungsi. Catatan: untuk dokumen berukuran besar ini mungkin memerlukan waktu cukup lama dan hasilnya PDF mungkin cukup besar.
Glenn Slayden
@GlennSlayden: Senang saran saya bekerja untuk Anda ... Apa yang hilang di dalamnya yang Anda pikir masih belum pantas mendapat upvote?
Kurt Pfeifle
Um, saya benar-benar kecewa. Ini masih menunjukkan kepada saya sebagai '1'. Satu-satunya keluhan saya adalah bahwa jawaban Anda ada di bagian bawah dan butuh beberapa saat untuk menemukannya (bukan salah Anda ...)
Glenn Slayden
Ok, @GlennSlayden, maka upvote itu pasti sudah lama sekali (jauh sebelum komentar Anda di atas).
Kurt Pfeifle
Tidak, saya membatalkan "12 jam yang lalu" pada saat yang sama saya menulis komentar ... Saya masih melihat panah biru yang (saya percaya) berarti suara saya adalah (satu) suara yang saat ini terdaftar. Dan saya ingat bahwa itu adalah '0' sebelum saya melakukan voting semalam.
Glenn Slayden
1

Salah satu pengguna saya baru saja melaporkan masalah yang sama (PDF dibuat dengan Distiller untuk Windows), bahwa teks yang disalin hanya berupa teks yang kacau dan dia tidak dapat mencari di dalam dokumen. Saya mencoba di Mac saya dan tidak menemukan masalah. Ternyata, saya menggunakan aplikasi Pratinjau Apple, sementara ia menggunakan Adobe Reader di mesin Windows-nya. Kemudian saya mencoba Adobe Reader pada Mac saya dan menghadapi efek yang sama. Bagi saya sepertinya:

  • Adobe Reader bergerak-gerak dan mencari dalam teks yang disimpan.

  • Pratinjau Apple akan menyalin dan mencari setelah menerapkan vektor pengodean.

Saya tidak bisa mengatakan ini dengan pasti, tetapi itu akan menjelaskan pengamatan saya. Dan memang akan memungkinkan untuk membuat semua jenis pengkodean saat menyimpan file gabungan / dikurangi seperti yang dijelaskan dalam posting lain di sini: dengan Preview Anda masih bisa mengeluarkan teks lagi.

Pertama saya pikir akan lebih logis untuk menyandikan subset font yang tertanam sebagai entri yang berdekatan daripada meninggalkan lubang di dalam dan menggunakan lokasi karakter asli. Tetapi kemudian saya menyadari, bahwa dengan menggunakan vektor pengkodean ke subset font dengan entri asli, karakter yang sering digunakan dapat memiliki lebih sedikit bit diatur ke 1 dalam byte mereka dan dapat dikompresi dengan cara yang lebih baik (dapat menurunkan entropi dari keseluruhan teks dengan cara ini).

Reuti
sumber
1

Mengunggahnya ke Google docs dan Menggunakan opsi View> Plain HTML , memberikan teks yang dapat disalin teks menjadi benar sekitar 80% dengan sedikit ruang yang hilang.

Utas ini dengan jawaban yang diterima untuk masalah yang sama menjelaskan ini dengan contoh yang berfungsi.

rev Teqchiqe
sumber
1

Saya belum mencoba opsi Google Documents karena masih belum didukung di kantor saya. Namun, dengan mencetak file ke "ScanSoft PDF Create!" dari "Acrobat 9" (mencetak seluruh file ke gambar) dan membuka file yang dicetak dalam "Nuance PDF Converter" (itu mendorong saya jika saya ingin membuat file gambar dapat dicari dan diedit, yang saya pilih), saya dapat memiliki dokumen Word yang dapat dengan mudah saya salin dan tempel. Ini tidak sempurna meskipun dengan akurasi hanya sekitar 80-90%. Tapi hei, Anda masih memiliki file PDF asli untuk dibandingkan dengan dan mengimbangi bagian-bagian yang tidak dapat diperbaiki. Menghemat waktu mengetik semuanya. 2c saya

Jhonrie
sumber
0

Saya membuat beberapa teks PDF yang dapat diedit dengan versi lama Scansoft PDF Converter untuk Windows XP, dan kemudian menggabungkan halaman-halaman dalam program Pratinjau Mac. Untuk setiap halaman terpisah, saya bisa mencari, menyalin, dan mengekspor teks dengan benar dari Adobe Reader di Mac. Ketika dikombinasikan oleh Pratinjau dan disimpan sebagai satu file, semua tampak bagus di layar, tetapi hanya beberapa bagian yang dapat dicari / diekspor dengan benar. Masalah itu membawaku ke sini.

Tulisan di sini memberi saya beberapa petunjuk bagus (terima kasih!). Saya melihat properti file untuk font. File halaman tunggal dari Win XP (di mana semuanya baik-baik saja) mengatakan encoding adalah ANSI. File yang digabungkan dalam Preview (di mana teks yang disalin dikacaukan) menunjukkan pengkodean untuk sebagian besar font sebagai "Built-in" dengan beberapa sebagai "Roman."

Solusi untuk masalah saya ada di bawah hidung saya sepanjang waktu - program Scansoft sendiri dapat menggabungkan file. Ketika saya menggunakan combiner Scansoft, dan membuka file di Mac, semua font ditampilkan sebagai ANSI-encoded dan semua teks diekspor / disalin dengan sempurna. Mengapa di Bumi saya tidak menggabungkan mereka dalam PDF Converter, saya tidak tahu. Terima kasih, poster!

Hal yang sama berlaku membuka file di sistem Linux.

Saya tahu ini tidak menjelaskan masalah khusus Windows - kecuali jika PDF memiliki asal-usul campuran yang serupa?

Jimbo
sumber