Hindari umlaut dua karakter dalam PDF

2

Penjelasan pengantar

Sebuah umlaut adalah vokal Jerman, diwakili secara tertulis sebagai huruf dengan dua titik ( diaeresis ) atas vokal dasar. Contoh dari umlaut adalah ä, ö, dan ü.

Tiga huruf ini dapat direpresentasikan dalam teks baik sebagai satu karakter tunggal - misalnya, ü sebagai Unicode U + 00FC - atau sebagai dua karakter: vokal dasar (mis. U, U + 0075) dan menggabungkan diaeresis (¨, U + 0308).

Keduanya karakter tunggal umlaut dan dua karakter umlaut terlihat sama di dokumen PDF, tetapi kode dasarnya berbeda. Animasi ini menampilkan teks yang disalin dari sama (!) File PDF dibuka di Firefox (atas) dan Pratinjau (bawah) menjadi editor teks biasa (BBEdit) dan kemudian menghapus setiap huruf:

enter image description here

Ketika umlaut direpresentasikan sebagai satu karakter, dan Anda mencari kata Jerman dengan umlaut , mis. Tur "pintu", dalam sebuah teks, Anda akan menemukan kata itu jika ada di sana. Jika di sisi lain umlaut direpresentasikan sebagai dua karakter dan Anda mencari Tur , Anda tidak akan menemukannya:

Die Tür ist offen.  <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text

Pertanyaan

Dalam Apple Preview dan Safari, tetapi juga dalam versi terbaru Adobe Acrobat Reader DC (18.011.20058) umlaut dalam dokumen PDF direpresentasikan sebagai dua karakter (vokal plus diaeresis), sedangkan dalam dokumen PDF yang sama , ketika saya membukanya di Firefox, Chrome, atau versi yang lebih lama dari Adobe Acrobat X Pro (10.1.16), mereka direpresentasikan sebagai satu karakter.

Mengapa begitu, dan bagaimana saya bisa menghindari umlaut dua karakter ketika saya membuat dokumen PDF?

Walter T
sumber
Halo Walter, selamat datang di Ask Different. Ketika Anda menulis "Jika di sisi lain umlaut diwakili sebagai dua karakter dan Anda mencari Tur, Anda tidak akan menemukannya", maksud Anda di dalam aplikasi (Pratinjau, Adobe Reader, dll), atau dengan Spotlight, atau dengan Terminal?
jaume
@jaume dalam aplikasi. Pencarian di Spotlight berfungsi dengan baik (karena bukan file PDF yang memiliki karakter salah).
Walter T
Ketika saya mengetik ü itu hanya satu karakter. Itu harus aplikasi yang digunakan untuk awalnya menulis tes atau mungkin saya tidak mengerti masalah yang dinyatakan dengan baik. Ini sepenuhnya mungkin. Umlaut yang dibuat oleh Mac saya tampaknya merupakan salah satu karakter dalam contoh yang saya coba. Catatan, Textedit, Pratinjau, dan Halaman. Saya bahkan tidak tahu cara membuat umlaut 2 karakter. Semoga ini bisa membantu sedikit.
jmh
@ jmh Anda dapat membuat dua karakter umlaut (dan banyak hal serupa) dengan menggunakan papan ketik ABC untuk menambahkan kombinasi diakritik ke huruf dasar.
Tom Gewecke
Halo Walter, versi macOS mana yang berjalan di Mac Anda? Bisakah Anda mengunggah dokumen PDF ke OneDrive atau Dropbox dan membagikan tautannya? Saya belum dapat mereproduksi masalah dengan dokumen PDF.
jaume

Jawaban:

3

Apakah Anda mendapatkan 1 atau 2 karakter tergantung pada caranya Normalisasi Unicode diterapkan oleh aplikasi dan proses yang Anda gunakan.

Saya tidak tahu apakah ada cara untuk menjamin satu atau yang lain kecuali mungkin melalui utilitas seperti UnicodeChecker .

Karena kedua formulir itu setara, sistem pencarian yang kompeten harus menemukan salah satunya.

Tom Gewecke
sumber