Menurut pengalaman Anda, karakter Unicode, titik kode, rentang di luar BMP (Basic Multilingual Plane) mana yang paling umum sejauh ini? Ini adalah yang membutuhkan 4 byte dalam UTF-8 atau pengganti dalam UTF-16.
Saya mengharapkan jawabannya adalah karakter China dan Jepang yang digunakan dalam nama tetapi tidak termasuk dalam kumpulan karakter multibyte CJK yang paling luas, tetapi pada proyek yang paling saya kerjakan, Wiktionary Inggris, kami telah menemukan bahwa alfabet Gotik adalah jauh lebih umum sejauh ini.
MEMPERBARUI
Saya telah menulis beberapa perangkat lunak untuk memindai seluruh Wikipedias untuk karakter non-BMP dan saya terkejut bahwa bahkan dalam alfabet Gothic Wikipedia Jepang adalah yang paling umum. Hal ini juga berlaku di Wikipedia bahasa Mandarin tetapi juga memiliki banyak karakter bahasa Mandarin yang digunakan hingga 50 atau 70 kali, termasuk "𨭎", "𠬠", dan "𩷶".
sumber
Jawaban:
Emoji sekarang adalah karakter non-BMP yang paling umum sejauh ini. 😂, atau dikenal sebagai U + 1F602 FACE WITH TEARS OF JOY, adalah yang paling umum di aliran publik Twitter. Ini terjadi lebih sering daripada tilde!
sumber
Pertanyaan bagus!
Jawabannya adalah huruf matematika. Desember lalu saya melakukan pemindaian seluruh korpus Akses Terbuka PubMed, dan menemukan angka-angka ini untuk karakter astral di dalamnya.
Angka pertama pada gambar di bawah ini adalah berapa banyak salinan dari setiap titik kode yang saya temukan di seluruh korpus. Namun, pertama-tama, untuk memberi Anda gambaran tentang frekuensi relatif, berikut adalah sepuluh poin kode trans-ASCII teratas dalam korpus itu:
Dan inilah poin kode trans-BMP, dalam urutan frekuensi menurun:
Saya benar-benar berharap saya tahu apa yang mereka gunakan U + 100002 untuk dilakukan. :(
Jika itu tidak muncul di browser Anda, Anda harus menginstal font Symbola George Douros . Ia juga memiliki semua poin kode Unicode 6.0.0 yang menyenangkan di dalamnya juga.
sumber
Bagi saya, Simbol Alfanumerik Matematika yang digunakan untuk penyusunan huruf matematika dengan font OpenType seperti Cambria Math.
sumber