cari PDF dengan pengkodean karakter non-standar

19

Beberapa file PDF menghasilkan sampah (" mojibake ") ketika Anda menyalin teks (meskipun mereka membuat OK). Ini membuatnya mustahil untuk mencari mereka (apa pun yang Anda cari tidak akan cocok dengan sampah).

Adakah yang punya solusi mudah?

Contoh:

  1. Manual TEAC TV EU2816STF (menghasilkan masalah di atas pada Adobe Reader pada Windows dan Mac, tetapi berfungsi dengan baik di Pratinjau pada Mac)
  2. Panduan Leadtek Winfast PVR2 (tautan FTP; juga memiliki masalah dalam Pratinjau di Mac)
  3. Manual kartu TV tuner Swann (tautan FTP; juga memiliki masalah dalam Pratinjau di Mac)
  4. Perjanjian lisensi Phonedisc (dari DTMS yang sekarang tidak berfungsi )
  5. Tinjauan dana triwulanan Macquarie IFP
  6. Buklet Usaha Kecil BAN-TACS (versi diarsipkan)
  7. Selebaran Easterfest 2004 (juga dari arsip)

Saya menggunakan Adobe Reader (versi terbaru) untuk Windows - mungkin penampil alternatif dapat membantu? Saya mencari solusi gratis untuk Windows. Sumber terbuka akan lebih baik.

Sunting: Dokumen untuk alat Multivalent Extract Text memiliki ringkasan yang bagus tentang mengapa hal-hal bisa salah, termasuk: (dokumen yang dikutip terakhir dimodifikasi Jan 2006)

  • Teks mungkin tidak memiliki pemetaan Unicode. Jenis huruf PDF 3 sering tidak, dan TeX DVI memiliki karakter yang tidak memiliki padanan Unicode.
  • Pengkodean Unicode mungkin bermasalah. Open Office memetakan beberapa karakter ke dalam Unicode yang sama, menghasilkan huruf apparant yang dijatuhkan dan digandakan.

Saya kira solusi utama dalam kasus ini adalah dengan OCR setiap mesin terbang dalam font untuk mengetahui karakter apa itu sebenarnya. Perhatikan bahwa ini akan lebih mudah daripada OCRing dokumen pindaian berisik karena bentuk mesin terbang yang tepat tersedia (pada resolusi tak terbatas karena itu adalah gambar "vektor").

Hugh Allen
sumber
Dengan menggunakan clipbrd.exe(lihat mydigitallife.info/2008/11/06/... ) Anda dapat melihat apa yang ada di clipboard. Apa yang memberi Anda?
Arjan
@Arjan van Bentem: memberi saya persis sampah yang sama yang saya dapatkan ketika menempelkan ke Notepad.
Hugh Allen
Adakah detail pada formatnya? Saya menggunakan Mac, tetapi saya berasumsi Windows akan memberi tahu Anda jika ada sesuatu gambar atau teks, dan kemudian untuk teks mungkin juga mengungkapkan sesuatu tentang pengkodean?
Arjan
Untuk Manual TV contoh: masalah yang sama dalam Adobe Reader 8.1.2 pada Mac, tetapi tidak ada masalah menggunakan Pratinjau Mac untuk menyalin atau mencari teks. Properti dokumennya menunjukkan "Pengkodean: Ubahsuaian" untuk font (lihat img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Dokumen PDF lainnya menunjukkan hal-hal seperti "Pengkodean: Ansi" atau "Roman" dan tidak memiliki masalah dalam Adobe Reader pada Mac (seperti adobe.com/education/pdf/type_primer.pdf menghasilkan img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Arjan
1
Juga, pdftextonline.com tidak dapat mengambil teks dari Manual TV atau dokumen Phonedisc (tidak mencoba yang lain). Tapi mengirim ke Gmail dan kemudian melihat sebagai HTML tidak bekerja untuk TV Manual (seperti Preview tidak memiliki masalah dengan dokumen yang) ...
Arjan

Jawaban:

3

Foxit Reader , mungkin?

Untuk apa layak, saya hanya memeriksa PDF Anda terkait dengan dengan Safari 4.0.4 pada Mac OS X 10.6.2 dan sementara ada adalah beberapa Engrish , PDF itu membuat sempurna tanpa "sampah" pada layar. Mungkin Anda mengalami masalah Unicode (lebih umum di Windows daripada Mac OS)?

Alex
sumber
Sampah tidak ada di layar - ada di clipboard ketika saya menyalin beberapa teks. Apa yang terjadi pada Anda ketika Anda mencoba?
Hugh Allen
@Hugh: Fitur 􏰃 Ini adalah televisi berwarna yang dikendalikan dari jarak jauh. 􏰃 100 program dari VHF, band UHF atau saluran kabel dapat diatur sebelumnya. 􏰃 Dapat menyetel saluran kabel. 􏰃 Mengontrol TV sangat mudah dengan sistem yang didorong menu. 􏰃 Memiliki tiga soket Euroconnector untuk perangkat eksternal (seperti komputer, video, video game, perangkat audio, dll.)
Alex
@ Hugh: Peluru tidak menyalin dengan benar, tetapi sisanya. Apa bagian / halaman / paragraf khusus yang Anda punya masalah, dan saya akan mencobanya?
Alex
Semua itu. Saya menggunakan Adobe Reader untuk Windows. Saya baru saja memperbarui ke versi terbaru yang tidak membantu. +1 terima kasih atas informasinya. Saya kira Adobe Reader memiliki bug yang tidak dibagi oleh OSX.
Hugh Allen
4
Saya mencoba Foxit Reader dan memiliki masalah yang sama. Penginstalnya juga sangat mengganggu, ingin menginstal bilah alat, memodifikasi beranda Anda, dll :(
Hugh Allen
3

Cara termudah untuk menyiasatinya adalah dengan membuka file dalam versi terbaru Google Chrome dengan plugin membaca PDF bawaan . Kemudian Anda dapat menggunakan fitur pencarian Chrome untuk menemukan teks, dan salin-tempel berfungsi dengan benar.

acatalept
sumber
2

Untuk contoh TV Manual : masalah yang sama pada Adobe Reader 8.1.2 pada Mac, tetapi tidak ada masalah menggunakan Pratinjau Mac untuk menyalin atau mencari teks. Juga, mengirimkannya ke akun Gmail dan kemudian memilih "Lihat" dan kemudian "HTML Biasa" mengungkapkan teks. Tetapi Adobe Reader tidak menyukainya.

Properti dokumennya menunjukkan "Pengkodean: Ubahsuaian" untuk font. Dokumen lain menunjukkan hal-hal seperti "Pengkodean: Ansi" atau "Romawi", dan tidak memiliki masalah dalam Pratinjau atau Pustaka Adobe pada Mac:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Namun, kedua contoh Leadtek dan Swann memberikan masalah dalam Pratinjau di Mac juga, dan di Gmail, dan keduanya menunjukkan "Pengodean: Identitas-H". The Phonedisc tes gagal juga, dengan "Encoding: Custom".

Membingungkan, dan tidak konsisten, tetapi pada beberapa forum Adobe saya menemukan penjelasan berikut untuk contoh lain yang menunjukkan "Pengkodean: Kustom" (penekanan saya):

Setelah melihat ke dalam PDF ternyata tidak ada informasi pengkodean yang dapat digunakan hadir (baik dalam PDF maupun dalam data font yang tertanam) untuk mendapatkan makna karakter / mesin terbang yang ditampilkan pada halaman-halaman dalam dokumen.

Sebenarnya font semua tertanam, tetapi dengan cara bahwa semua informasi penyandian telah dihapus. Ini adalah contoh khas dari PDF yang secara sintaksis sepenuhnya sesuai dengan spesifikasi PDF tetapi di mana informasi penting tentang arti teks di dalamnya telah dibuang selama proses pembuatan PDF. Sejauh yang saya tahu, akan sangat sulit untuk memulihkan info penyandian.

Ini tidak menjelaskan mengapa Pratinjau Mac (dan tampaknya Infix juga) dapat menangani beberapa contoh ketika Adobe Reader gagal, bahkan dengan "Encoding: Custom". Mungkin Pratinjau tidak memiliki masalah saat font yang tepat muncul di komputer itu sendiri? Atau mungkin hanya menebak penyandian, yang terjadi untuk beberapa tetapi tidak semua dokumen?

Apa pun penyebabnya: jika melewati Google Documents atau Gmail tidak berfungsi, mungkin solusi yang paling mudah (tapi jauh dari mudah) adalah menyimpannya sebagai TIFF dan kemudian melakukan OCR . Layanan seperti Evernote mungkin melakukannya dengan cepat (ia melakukan OCR pada gambar; Saya ragu itu akan melakukan OCR pada PDF).

Arjan
sumber
-1

Unduhan file 1 gagal bagi saya, file 2 saya bisa buka dengan xpdf, pdf-viewer yang cepat dan open-source. Saya kira itu tidak bisa menangani formulir, tetapi untuk teks murni dan grafic saya lebih suka untuk waktu startup yang cepat.

Pengguna tidak diketahui
sumber
1
Pertanyaannya bukan tentang "membuka" PDF, atau tentang "membuka dengan waktu startup cepat". Alih-alih, itu adalah tentang tidak dapat menyalin cuplikan teks 'tempel' dari halaman yang diberikan. Jadi jawaban Anda mungkin bagus, tetapi tidak cocok dengan pertanyaan ini.
Kurt Pfeifle
-2

Sayangnya itu tidak dapat membantu. Dokumen PDF sebenarnya tidak mengandung huruf apa pun, tetapi mengandung bentuk huruf. Dengan kata lain, alih-alih membaca surat dan menggambarnya di layar Adobe Reader karena aplikasi membaca PDF lainnya hanya akan menggambar grafik vektor yang dikodekan dalam file.

Namun, beberapa pembaca PDF dilengkapi dengan perangkat lunak yang memungkinkan untuk menganalisis bentuk dan memulihkan teks dengan menggunakan pengenalan teks. Ini berfungsi sama seperti jika Anda memindai kertas teks cetak dan perangkat lunak yang digunakan seperti ABBYY FineReader untuk mengubahnya kembali menjadi teks, tetapi karena kualitas gambar vektor yang sangat tinggi hasilnya biasanya jauh lebih baik daripada dokumen yang dipindai.

Beberapa dokumen dapat dilindungi dari konversi ke teks dengan membodohi Adobe Reader. Misalnya, huruf dapat ditarik dalam beberapa bentuk yang tumpang tindih sedemikian rupa sehingga secara visual mereka akan tetap terlihat sama, sedangkan perangkat lunak pengenalan teks akan gagal mengenali teks. Dokumen Anda adalah contoh dari perlindungan semacam itu.

Salah satu caranya adalah dengan mencetak dokumen menjadi gambar dan membiarkan perangkat lunak pengenalan teks mengenalinya. Resolusi yang lebih tinggi untuk gambar akan meningkatkan kualitas. Namun metode ini tidak terlalu berguna.

Sergiy Belozorov
sumber
2
Dokumen PDF sebenarnya tidak mengandung surat apa pun - itu tidak berlaku untuk sebagian besar dokumen yang tidak dipindai; lihat en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan
Terima kasih. Informasi yang menarik. Saya selalu berpikir bahwa tidak ada informasi tentang teks dalam PDF. Namun demikian sepertinya dokumen yang disediakan oleh Alexander tidak memiliki teks yang disematkan. Atau mungkin juga font yang digunakan di sana memiliki pengkodean karakter yang aneh, yaitu mereka tidak sesuai dengan pengkodean ASCII yang khas.
Sergiy Belozorov
2
Bagaimana saya bisa menyalin teks dari PDF jika itu hanya bentuk? Anda sebagian benar - ini tidak dirasterisasi dalam PDF (kecuali jika itu dari sumber yang dipindai), tetapi data teks disertakan. Namun, font (biasanya) juga disematkan, memungkinkan teks yang disertakan untuk dirender vektor.
Alex