Saya punya beberapa PDF yang berisi ligatur dalam teks (misalnya, ff
digabungkan menjadi satu karakter, ff
).
Apakah ada cara mudah untuk menghapusnya saat menyalin teks dari PDF? (yaitu, ketika saya tempel, saya ingin ff
disisipkan sebagai ff
).
Saya menyalin banyak teks dari PDF ini ke dalam jawaban di Stack Overflow dan saya menemukan ligatur paling menjengkelkan (ok, saya akui, saya benar-benar pilih-pilih :-P); ligatur juga tidak muncul dengan benar ketika disalin ke tempat lain (misalnya, jika saya menyalinnya ke Notepad, mereka muncul sebagai blok).
Saya tidak dapat memodifikasi PDF.
Saya menggunakan Adobe Acrobat Reader dan Foxit Reader, tetapi saya akan terbuka untuk mencoba pembaca PDF baru.
sumber
Saya menjawab pertanyaan serupa secara lebih mendalam - Mengapa teks `fi` terpotong saat saya menyalin dari PDF atau mencetak dokumen?
Anda dapat mengganti kata-kata "patah" dalam teks yang disalin jika Anda memiliki pemetaan dari kata-kata yang rusak ke kata-kata asli. Saya menulis sebuah skrip untuk menghasilkan pemetaan ini dengan menghapus ligatur dari kata-kata dan memeriksa apakah kata yang dihasilkan unik. Untuk kamus saya kata-kata bahasa Inggris, 99,5% dari semua kemungkinan kata rusak yang diganti, dan 92,3% dari kata-kata yang mengandung urutan ligatur (
ff
,fi
,fl
,ffi
, atauffl
) dapat dipulihkan. Perbedaan antara kedua persentase ini adalah karena jumlah mengejutkan besar kata-kata yang sah yang dibuat dengan menghapus ligamen dari kata yang sah lainnya (sepertibutterfly --> buttery
,fluffs --> us
, danmisfits --> mists
).Berikut ini adalah CSV kata-kata "rusak" yang dapat diganti-ganti (dan kata-kata yang semula): http://www.filedropper.com/brokenligaturewordfixes
sumber
Cara saya hanyalah menyalin dan menempel dari PDF ke notepad (untuk menghapus format apa pun) dan kemudian dari notepad ke Microsoft Word.
Di Word semua ligatur diubah dengan font pemformatan lainnya.
Saya menggunakan find dan ganti untuk masing-masing (seperti ^ l untuk interupsi baris manual dan ^ m untuk interupsi halaman manual dan sebagainya, Anda dapat menemukan semuanya dengan mudah secara online) dan saya ganti dengan formulir yang benar.
Dalam 4 atau 5 langkah saya menutup semua kemungkinan dengan cukup cepat. Berguna juga untuk menghilangkan interupsi paragraf tambahan (^ P)
sumber