Saya hanya akan menautkan artikel wikipedia di sini karena rentang blok akan diperbarui dari waktu ke waktu sehingga lebih baik untuk menautkan sesuatu yang secara dinamis mengubah ratger tgan memberikan jawaban statis ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067
Jawaban:
104
Mungkin Anda akan menemukan daftar lengkapnya melalui CJK Unicode FAQ (yang menyertakan karakter "China, Jepang, dan Korea")
Anda mungkin juga ingin memasukkan U + AC00 - U + D7AF (Suku Kata Hangul).
Flimm
12
@Flimm: Hangul bukan bagian dari standar Cina; Hangul adalah orang Korea. Bahasa Korea memang menggunakan Hanja ("aksara Cina"), tetapi jarang dan hanya untuk beberapa hal tradisional (seperti nama belakang, monumen, tempat ...) yang tidak dapat ditranskripsikan di Hangul. OP menanyakan tentang bahasa Mandarin secara khusus, jadi Responder tidak perlu menyertakan Hangul. :-)
Saya mengetahui bahwa CJK Unified Ideographs Extension A adalah dari 3400 hingga 4dbf daripada 3400 hingga 4dff.
Lerner Zhang
48
Unicode saat ini memiliki 74605 karakter CJK. Karakter CJK tidak hanya mencakup karakter yang digunakan oleh orang Cina, tetapi juga Kanji Jepang, Hanja Korea, dan Chu Nom Vietnam . Beberapa karakter CJK bukan karakter Cina.
Hai, dapatkah Anda memberi contoh ideograf CJK (sebaiknya dari bidang dasar) yang bukan karakter Tionghoa? Saya pikir karakter dari bahasa lain (Jepang, Korea) yang juga bukan karakter Cina muncul di blok lain (misalnya blok Hangul Jamo, dalam kasus Korea) ...
Adam Burley
Coba lihat 'Gukja', 'Kokuji', dan 'Chữ Nôm'. U + 4E44, 乄, adalah karakter CJK khusus Jepang.
Ṃųỻịgǻňạcểơửṩ
21
Rentang yang tepat untuk karakter Cina (kecuali ekstensi) adalah [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].
Suplemen Radikal CJK adalah blok Unicode yang berisi bentuk-bentuk radikal Kangxi alternatif, seringkali posisional. Mereka adalah tajuk yang digunakan dalam indeks kamus dan koleksi ideograf CJK lainnya yang diorganisasikan oleh garis stroke.
Ideograf Kompatibilitas CJK adalah blok Unicode yang dibuat untuk memuat karakter Han yang dikodekan di beberapa lokasi dalam pengkodean karakter mapan lainnya, selain tugas Ideograf Terpadu CJK, untuk mempertahankan kompatibilitas bolak-balik antara Unicode dan pengkodean tersebut.
Untuk detailnya, silakan merujuk ke sini , dan ekstensi disediakan di jawaban lain.
Bisakah orang yang memberikan suara negatif pada jawaban ini memberi tahu saya alasannya?
Lerner Zhang
2
Saya tidak downvote, tapi bagaimana dengan ekstensi B, C, D, dan E?
Suragch
@Suragch Ekstensi tersebut telah disediakan dengan benar di jawaban lain, oleh karena itu saya tidak perlu menulis ulang. Saya hanya memisahkan dengan jelas rentang di antaranya.
Lerner Zhang
1. range dari CJK Radicals Supplement adalah 2E80—2EFF 2.Kangxi Radicals bukan aksara Tionghoa, ini adalah komponen grafis dari karakter Tionghoa, digunakan khusus untuk mengekspresikan radikal, .eg ⼻ (U + 2F3B) dan 彳 (U + 5F73 ), ⻜ (U + 2EDC) dan 飞 (U + 98DE) 3. Jika menurut Anda kanbun adalah huruf Cina, mengapa Ideographs Kompatibilitas CJK tidak? Mengapa tidak Dilampirkan Surat dan Bulan CJK?
Voyager
@rambler Terima kasih atas saran Anda. Saya pikir ketika kita memproses karakter Chinses, kita harus mempertimbangkan Kangxi Radicals dan Kanbun. Ideograf kesesuaian CJK bagus tetapi huruf dan bulan CJK terlampir terlalu jarang dan menurut saya kita tidak perlu mempertimbangkannya.
Lerner Zhang
10
Unicode versi 11.0.0
Dalam Unicode, skrip China, Jepang, dan Korea (CJK) memiliki latar belakang yang sama, yang secara kolektif dikenal sebagai karakter CJK.
Rentang ini sering kali berisi poin kode yang tidak ditetapkan atau dicadangkan (seperti U + 2E9A , U + 2EF4 - 2EFF),
Karakter Cina
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Di blok Ideograf Terpadu CJK , saya melihat banyak jawaban menggunakan batas atas 9FCC, tetapi U + 9FCD (鿍) memang karakter Cina. Dan semua karakter di blok ini adalah karakter Cina (juga digunakan dalam bahasa Jepang atau Korea, dll.).
Sebagian besar karakter dalam CJK Unified Ideograohs Ext (Kecuali Ext F, hanya 17% di Ext F adalah karakter China), adalah karakter China tradisional, yang jarang digunakan di China.
〇 adalah bentuk karakter Cina dari nol dan masih digunakan sampai sekarang
Karakter CJK tetapi tidak pernah digunakan dalam bahasa Cina
Mereka adalah Han Biasa yang digunakan hanya untuk kompatibilitas.
Hampir tidak mungkin untuk melihatnya muncul di buku, artikel, tulisan berbahasa Mandarin, dll.
semua karakter di sini memiliki satu karakter China identik mesin terbang yang sesuai. Seperti 金 (U + F90A) dan 金 (U + 91D1), keduanya identik dalam Glyph.
beberapa blok seperti Kompatibilitas Hangul Jamo ditinggalkan karena tidak ada hubungannya dengan bahasa Cina.
Kangxi Radikal bukanlah karakter Tionghoa, ini adalah komponen grafis dari karakter Tionghoa, digunakan khusus untuk mengekspresikan radikal, .eg ⼻ (U + 2F3B) dan 彳 (U + 5F73), ⻜ (U + 2EDC) dan 飞 (U + 98DE)
Tanda baca umum lainnya muncul dalam bahasa China
Ini adalah jangkauan yang luas, beberapa tanda baca mungkin tidak pernah digunakan, beberapa tanda baca seperti ……”“banyak digunakan dalam bahasa Cina.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Ada juga banyak simbol yang berhubungan dengan Cina, seperti Yijing Hexagram Symbols atau Kanbun , tapi itu di luar topik. Saya menulis karakter non-Tionghoa di CJK untuk mendapatkan penjelasan yang lebih baik tentang apa itu aksara Tionghoa. Dan range diatas sudah mencakup hampir semua karakter yang muncul dalam tulisan Cina kecuali matematika dan notasi khusus lainnya.
Jawaban:
Mungkin Anda akan menemukan daftar lengkapnya melalui CJK Unicode FAQ (yang menyertakan karakter "China, Jepang, dan Korea")
Dokumen " East Asian Script " memang menyebutkan:
Tabel 12-2. Blok yang Mengandung Ideograf Han
Catatan: rentang blok dapat berkembang dari waktu ke waktu: yang terbaru ada di Ideograf Terpadu CJK .
Lihat juga Wikipedia:
sumber
Unicode saat ini memiliki 74605 karakter CJK. Karakter CJK tidak hanya mencakup karakter yang digunakan oleh orang Cina, tetapi juga Kanji Jepang, Hanja Korea, dan Chu Nom Vietnam . Beberapa karakter CJK bukan karakter Cina.
1) 20941 karakter dari blok Ideograf Terpadu CJK .
Kode poin U + 4E00 ke U + 9FCC.
2) 6582 karakter dari blok CJKUI Ext A .
Kode poin U + 3400 ke U + 4DB5 . Unicode 3.0 (1999).
3) 42.711 karakter dari blok CJKUI Ext B .
Kode poin U + 20000 ke U + 2A6D6. Unicode 3.1 (2001).
3) 4149 karakter dari blok CJKUI Ext C .
Kode poin U + 2A700 ke U + 2B734 . Unicode 5.2 (2009).
4) 222 karakter dari blok CJKUI Ext D .
Kode poin U + 2B740 ke U + 2B81D . Unicode 6.0 (2010).
5) Blok CJKUI Ext E.
Segera akan datang
Jika hal di atas belum cukup untuk spageti, lihat masalah yang diketahui . Selamat bersenang-senang =)
sumber
Rentang yang tepat untuk karakter Cina (kecuali ekstensi) adalah
[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.[\u2e80-\u2fd5]
[\u3190-\u319f]
[\u3400-\u4DBF]
[\u4E00-\u9FCC]
[\uF900-\uFAAD]
Untuk detailnya, silakan merujuk ke sini , dan ekstensi disediakan di jawaban lain.
sumber
Unicode versi 11.0.0
Dalam Unicode, skrip China, Jepang, dan Korea (CJK) memiliki latar belakang yang sama, yang secara kolektif dikenal sebagai karakter CJK.
Rentang ini sering kali berisi poin kode yang tidak ditetapkan atau dicadangkan (seperti U + 2E9A , U + 2EF4 - 2EFF),
Karakter Cina
Oleh karena itu kisarannya
Karakter CJK tetapi tidak pernah digunakan dalam bahasa Cina
Mereka adalah Han Biasa yang digunakan hanya untuk kompatibilitas.
Hampir tidak mungkin untuk melihatnya muncul di buku, artikel, tulisan berbahasa Mandarin, dll.
semua karakter di sini memiliki satu karakter China identik mesin terbang yang sesuai. Seperti 金 (U + F90A) dan 金 (U + 91D1), keduanya identik dalam Glyph.
Simbol terkait CJK
Tanda baca umum lainnya muncul dalam bahasa China
Ini adalah jangkauan yang luas, beberapa tanda baca mungkin tidak pernah digunakan, beberapa tanda baca seperti
……”“
banyak digunakan dalam bahasa Cina.Ada juga banyak simbol yang berhubungan dengan Cina, seperti Yijing Hexagram Symbols atau Kanbun , tapi itu di luar topik. Saya menulis karakter non-Tionghoa di CJK untuk mendapatkan penjelasan yang lebih baik tentang apa itu aksara Tionghoa. Dan range diatas sudah mencakup hampir semua karakter yang muncul dalam tulisan Cina kecuali matematika dan notasi khusus lainnya.
Tambahan
Simbol dan Tanda Baca CJK
Bentuk Lebar Separuh dan Lebar Penuh
Lihat
sumber
Blok kode Unicode yang diberikan oleh jawaban lain pasti mencakup sebagian besar karakter Unicode Cina, tetapi lihat beberapa blok kode lainnya juga.
Lihat pembahasan lebih lengkap saya di sini . Dan situs ini nyaman untuk menjelajahi Unicode.
sumber
Untuk meringkas, sepertinya ini adalah mereka:
sumber