Penjelasan pengantar
Sebuah umlaut adalah vokal Jerman, diwakili secara tertulis sebagai huruf dengan dua titik ( diaeresis ) atas vokal dasar. Contoh dari umlaut adalah ä, ö, dan ü.
Tiga huruf ini dapat direpresentasikan dalam teks baik sebagai satu karakter tunggal - misalnya, ü sebagai Unicode U + 00FC - atau sebagai dua karakter: vokal dasar (mis. U, U + 0075) dan menggabungkan diaeresis (¨, U + 0308).
Keduanya karakter tunggal umlaut dan dua karakter umlaut terlihat sama di dokumen PDF, tetapi kode dasarnya berbeda. Animasi ini menampilkan teks yang disalin dari sama (!) File PDF dibuka di Firefox (atas) dan Pratinjau (bawah) menjadi editor teks biasa (BBEdit) dan kemudian menghapus setiap huruf:
Ketika umlaut direpresentasikan sebagai satu karakter, dan Anda mencari kata Jerman dengan umlaut , mis. Tur "pintu", dalam sebuah teks, Anda akan menemukan kata itu jika ada di sana. Jika di sisi lain umlaut direpresentasikan sebagai dua karakter dan Anda mencari Tur , Anda tidak akan menemukannya:
Die Tür ist offen. <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text
Pertanyaan
Dalam Apple Preview dan Safari, tetapi juga dalam versi terbaru Adobe Acrobat Reader DC (18.011.20058) umlaut dalam dokumen PDF direpresentasikan sebagai dua karakter (vokal plus diaeresis), sedangkan dalam dokumen PDF yang sama , ketika saya membukanya di Firefox, Chrome, atau versi yang lebih lama dari Adobe Acrobat X Pro (10.1.16), mereka direpresentasikan sebagai satu karakter.
Mengapa begitu, dan bagaimana saya bisa menghindari umlaut dua karakter ketika saya membuat dokumen PDF?
Jawaban:
Apakah Anda mendapatkan 1 atau 2 karakter tergantung pada caranya Normalisasi Unicode diterapkan oleh aplikasi dan proses yang Anda gunakan.
Saya tidak tahu apakah ada cara untuk menjamin satu atau yang lain kecuali mungkin melalui utilitas seperti UnicodeChecker .
Karena kedua formulir itu setara, sistem pencarian yang kompeten harus menemukan salah satunya.
sumber