Beberapa file PDF menghasilkan sampah (" mojibake ") ketika Anda menyalin teks (meskipun mereka membuat OK). Ini membuatnya mustahil untuk mencari mereka (apa pun yang Anda cari tidak akan cocok dengan sampah).
Adakah yang punya solusi mudah?
Contoh:
- Manual TEAC TV EU2816STF (menghasilkan masalah di atas pada Adobe Reader pada Windows dan Mac, tetapi berfungsi dengan baik di Pratinjau pada Mac)
- Panduan Leadtek Winfast PVR2 (tautan FTP; juga memiliki masalah dalam Pratinjau di Mac)
- Manual kartu TV tuner Swann (tautan FTP; juga memiliki masalah dalam Pratinjau di Mac)
- Perjanjian lisensi Phonedisc (dari DTMS yang sekarang tidak berfungsi )
- Tinjauan dana triwulanan Macquarie IFP
- Buklet Usaha Kecil BAN-TACS (versi diarsipkan)
- Selebaran Easterfest 2004 (juga dari arsip)
Saya menggunakan Adobe Reader (versi terbaru) untuk Windows - mungkin penampil alternatif dapat membantu? Saya mencari solusi gratis untuk Windows. Sumber terbuka akan lebih baik.
Sunting: Dokumen untuk alat Multivalent Extract Text memiliki ringkasan yang bagus tentang mengapa hal-hal bisa salah, termasuk: (dokumen yang dikutip terakhir dimodifikasi Jan 2006)
- Teks mungkin tidak memiliki pemetaan Unicode. Jenis huruf PDF 3 sering tidak, dan TeX DVI memiliki karakter yang tidak memiliki padanan Unicode.
- Pengkodean Unicode mungkin bermasalah. Open Office memetakan beberapa karakter ke dalam Unicode yang sama, menghasilkan huruf apparant yang dijatuhkan dan digandakan.
Saya kira solusi utama dalam kasus ini adalah dengan OCR setiap mesin terbang dalam font untuk mengetahui karakter apa itu sebenarnya. Perhatikan bahwa ini akan lebih mudah daripada OCRing dokumen pindaian berisik karena bentuk mesin terbang yang tepat tersedia (pada resolusi tak terbatas karena itu adalah gambar "vektor").
sumber
clipbrd.exe
(lihat mydigitallife.info/2008/11/06/... ) Anda dapat melihat apa yang ada di clipboard. Apa yang memberi Anda?Jawaban:
Foxit Reader , mungkin?
Untuk apa layak, saya hanya memeriksa PDF Anda terkait dengan dengan Safari 4.0.4 pada Mac OS X 10.6.2 dan sementara ada adalah beberapa Engrish , PDF itu membuat sempurna tanpa "sampah" pada layar. Mungkin Anda mengalami masalah Unicode (lebih umum di Windows daripada Mac OS)?
sumber
Cara termudah untuk menyiasatinya adalah dengan membuka file dalam versi terbaru Google Chrome dengan plugin membaca PDF bawaan . Kemudian Anda dapat menggunakan fitur pencarian Chrome untuk menemukan teks, dan salin-tempel berfungsi dengan benar.
sumber
Untuk contoh TV Manual : masalah yang sama pada Adobe Reader 8.1.2 pada Mac, tetapi tidak ada masalah menggunakan Pratinjau Mac untuk menyalin atau mencari teks. Juga, mengirimkannya ke akun Gmail dan kemudian memilih "Lihat" dan kemudian "HTML Biasa" mengungkapkan teks. Tetapi Adobe Reader tidak menyukainya.
Properti dokumennya menunjukkan "Pengkodean: Ubahsuaian" untuk font. Dokumen lain menunjukkan hal-hal seperti "Pengkodean: Ansi" atau "Romawi", dan tidak memiliki masalah dalam Pratinjau atau Pustaka Adobe pada Mac:
Namun, kedua contoh Leadtek dan Swann memberikan masalah dalam Pratinjau di Mac juga, dan di Gmail, dan keduanya menunjukkan "Pengodean: Identitas-H". The Phonedisc tes gagal juga, dengan "Encoding: Custom".
Membingungkan, dan tidak konsisten, tetapi pada beberapa forum Adobe saya menemukan penjelasan berikut untuk contoh lain yang menunjukkan "Pengkodean: Kustom" (penekanan saya):
Ini tidak menjelaskan mengapa Pratinjau Mac (dan tampaknya Infix juga) dapat menangani beberapa contoh ketika Adobe Reader gagal, bahkan dengan "Encoding: Custom". Mungkin Pratinjau tidak memiliki masalah saat font yang tepat muncul di komputer itu sendiri? Atau mungkin hanya menebak penyandian, yang terjadi untuk beberapa tetapi tidak semua dokumen?
Apa pun penyebabnya: jika melewati Google Documents atau Gmail tidak berfungsi, mungkin solusi yang paling mudah (tapi jauh dari mudah) adalah menyimpannya sebagai TIFF dan kemudian melakukan OCR . Layanan seperti Evernote mungkin melakukannya dengan cepat (ia melakukan OCR pada gambar; Saya ragu itu akan melakukan OCR pada PDF).
sumber
Unduhan file 1 gagal bagi saya, file 2 saya bisa buka dengan xpdf, pdf-viewer yang cepat dan open-source. Saya kira itu tidak bisa menangani formulir, tetapi untuk teks murni dan grafic saya lebih suka untuk waktu startup yang cepat.
sumber
Sayangnya itu tidak dapat membantu. Dokumen PDF sebenarnya tidak mengandung huruf apa pun, tetapi mengandung bentuk huruf. Dengan kata lain, alih-alih membaca surat dan menggambarnya di layar Adobe Reader karena aplikasi membaca PDF lainnya hanya akan menggambar grafik vektor yang dikodekan dalam file.
Namun, beberapa pembaca PDF dilengkapi dengan perangkat lunak yang memungkinkan untuk menganalisis bentuk dan memulihkan teks dengan menggunakan pengenalan teks. Ini berfungsi sama seperti jika Anda memindai kertas teks cetak dan perangkat lunak yang digunakan seperti ABBYY FineReader untuk mengubahnya kembali menjadi teks, tetapi karena kualitas gambar vektor yang sangat tinggi hasilnya biasanya jauh lebih baik daripada dokumen yang dipindai.
Beberapa dokumen dapat dilindungi dari konversi ke teks dengan membodohi Adobe Reader. Misalnya, huruf dapat ditarik dalam beberapa bentuk yang tumpang tindih sedemikian rupa sehingga secara visual mereka akan tetap terlihat sama, sedangkan perangkat lunak pengenalan teks akan gagal mengenali teks. Dokumen Anda adalah contoh dari perlindungan semacam itu.
Salah satu caranya adalah dengan mencetak dokumen menjadi gambar dan membiarkan perangkat lunak pengenalan teks mengenalinya. Resolusi yang lebih tinggi untuk gambar akan meningkatkan kualitas. Namun metode ini tidak terlalu berguna.
sumber