Berapa kisaran lengkap untuk karakter bahasa Cina di Unicode?

95

U + 4E00..U + 9FFF adalah bagian dari set lengkap, tapi tidak semua

Oh Tuhan
sumber
3
Saya hanya akan menautkan artikel wikipedia di sini karena rentang blok akan diperbarui dari waktu ke waktu sehingga lebih baik untuk menautkan sesuatu yang secara dinamis mengubah ratger tgan memberikan jawaban statis ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Jawaban:

104

Mungkin Anda akan menemukan daftar lengkapnya melalui CJK Unicode FAQ (yang menyertakan karakter "China, Jepang, dan Korea")

Dokumen " East Asian Script " memang menyebutkan:

Blok yang Mengandung Ideograf Han

Karakter ideografik Han ditemukan dalam lima blok utama Unicode Standard, seperti yang ditunjukkan pada Tabel 12-2

Tabel 12-2. Blok yang Mengandung Ideograf Han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Catatan: rentang blok dapat berkembang dari waktu ke waktu: yang terbaru ada di Ideograf Terpadu CJK .

Lihat juga Wikipedia:

VonC
sumber
Anda mungkin juga ingin memasukkan U + AC00 - U + D7AF (Suku Kata Hangul).
Flimm
12
@Flimm: Hangul bukan bagian dari standar Cina; Hangul adalah orang Korea. Bahasa Korea memang menggunakan Hanja ("aksara Cina"), tetapi jarang dan hanya untuk beberapa hal tradisional (seperti nama belakang, monumen, tempat ...) yang tidak dapat ditranskripsikan di Hangul. OP menanyakan tentang bahasa Mandarin secara khusus, jadi Responder tidak perlu menyertakan Hangul. :-)
omninonsense
1
Daftar tampaknya tidak mencakup tanda baca ("。").
Michał Woliński
1
@ MichałWoliński Simbol CJK dan kisaran Tanda Baca 3000-303F
Mariano
Saya mengetahui bahwa CJK Unified Ideographs Extension A adalah dari 3400 hingga 4dbf daripada 3400 hingga 4dff.
Lerner Zhang
48

Unicode saat ini memiliki 74605 karakter CJK. Karakter CJK tidak hanya mencakup karakter yang digunakan oleh orang Cina, tetapi juga Kanji Jepang, Hanja Korea, dan Chu Nom Vietnam . Beberapa karakter CJK bukan karakter Cina.

1) 20941 karakter dari blok Ideograf Terpadu CJK .

Kode poin U + 4E00 ke U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 karakter dari blok CJKUI Ext A .

Kode poin U + 3400 ke U + 4DB5 . Unicode 3.0 (1999).

3) 42.711 karakter dari blok CJKUI Ext B .

Kode poin U + 20000 ke U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 karakter dari blok CJKUI Ext C .

Kode poin U + 2A700 ke U + 2B734 . Unicode 5.2 (2009).

4) 222 karakter dari blok CJKUI Ext D .

Kode poin U + 2B740 ke U + 2B81D . Unicode 6.0 (2010).

5) Blok CJKUI Ext E.

Segera akan datang

Jika hal di atas belum cukup untuk spageti, lihat masalah yang diketahui . Selamat bersenang-senang =)

Pacerier
sumber
1
Hai, dapatkah Anda memberi contoh ideograf CJK (sebaiknya dari bidang dasar) yang bukan karakter Tionghoa? Saya pikir karakter dari bahasa lain (Jepang, Korea) yang juga bukan karakter Cina muncul di blok lain (misalnya blok Hangul Jamo, dalam kasus Korea) ...
Adam Burley
Coba lihat 'Gukja', 'Kokuji', dan 'Chữ Nôm'. U + 4E44, 乄, adalah karakter CJK khusus Jepang.
Ṃųỻịgǻňạcểơửṩ
21

Rentang yang tepat untuk karakter Cina (kecuali ekstensi) adalah [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

Suplemen Radikal CJK adalah blok Unicode yang berisi bentuk-bentuk radikal Kangxi alternatif, seringkali posisional. Mereka adalah tajuk yang digunakan dalam indeks kamus dan koleksi ideograf CJK lainnya yang diorganisasikan oleh garis stroke.

  1. [\u3190-\u319f]

Kanbun adalah blok Unicode yang berisi karakter anotasi yang digunakan dalam salinan bahasa Jepang klasik China, untuk menunjukkan urutan membaca.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A adalah blok Unicode yang berisi ideograf Han yang langka.

  1. [\u4E00-\u9FCC]

Ideograf Terpadu CJK adalah blok Unicode yang berisi ideograf CJK yang paling umum digunakan dalam bahasa Mandarin dan Jepang modern.

  1. [\uF900-\uFAAD]

Ideograf Kompatibilitas CJK adalah blok Unicode yang dibuat untuk memuat karakter Han yang dikodekan di beberapa lokasi dalam pengkodean karakter mapan lainnya, selain tugas Ideograf Terpadu CJK, untuk mempertahankan kompatibilitas bolak-balik antara Unicode dan pengkodean tersebut.

Untuk detailnya, silakan merujuk ke sini , dan ekstensi disediakan di jawaban lain.

Lerner Zhang
sumber
Bisakah orang yang memberikan suara negatif pada jawaban ini memberi tahu saya alasannya?
Lerner Zhang
2
Saya tidak downvote, tapi bagaimana dengan ekstensi B, C, D, dan E?
Suragch
@Suragch Ekstensi tersebut telah disediakan dengan benar di jawaban lain, oleh karena itu saya tidak perlu menulis ulang. Saya hanya memisahkan dengan jelas rentang di antaranya.
Lerner Zhang
1. range dari CJK Radicals Supplement adalah 2E80—2EFF 2.Kangxi Radicals bukan aksara Tionghoa, ini adalah komponen grafis dari karakter Tionghoa, digunakan khusus untuk mengekspresikan radikal, .eg ⼻ (U + 2F3B) dan 彳 (U + 5F73 ), ⻜ (U + 2EDC) dan 飞 (U + 98DE) 3. Jika menurut Anda kanbun adalah huruf Cina, mengapa Ideographs Kompatibilitas CJK tidak? Mengapa tidak Dilampirkan Surat dan Bulan CJK?
Voyager
@rambler Terima kasih atas saran Anda. Saya pikir ketika kita memproses karakter Chinses, kita harus mempertimbangkan Kangxi Radicals dan Kanbun. Ideograf kesesuaian CJK bagus tetapi huruf dan bulan CJK terlampir terlalu jarang dan menurut saya kita tidak perlu mempertimbangkannya.
Lerner Zhang
10

Unicode versi 11.0.0

Dalam Unicode, skrip China, Jepang, dan Korea (CJK) memiliki latar belakang yang sama, yang secara kolektif dikenal sebagai karakter CJK.

Rentang ini sering kali berisi poin kode yang tidak ditetapkan atau dicadangkan (seperti U + 2E9A , U + 2EF4 - 2EFF),

Karakter Cina

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Di blok Ideograf Terpadu CJK , saya melihat banyak jawaban menggunakan batas atas 9FCC, tetapi U + 9FCD (鿍) memang karakter Cina. Dan semua karakter di blok ini adalah karakter Cina (juga digunakan dalam bahasa Jepang atau Korea, dll.).
  • Sebagian besar karakter dalam CJK Unified Ideograohs Ext (Kecuali Ext F, hanya 17% di Ext F adalah karakter China), adalah karakter China tradisional, yang jarang digunakan di China.
  • 〇 adalah bentuk karakter Cina dari nol dan masih digunakan sampai sekarang

Oleh karena itu kisarannya

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Karakter CJK tetapi tidak pernah digunakan dalam bahasa Cina

Mereka adalah Han Biasa yang digunakan hanya untuk kompatibilitas.

Hampir tidak mungkin untuk melihatnya muncul di buku, artikel, tulisan berbahasa Mandarin, dll.

semua karakter di sini memiliki satu karakter China identik mesin terbang yang sesuai. Seperti 金 (U + F90A) dan 金 (U + 91D1), keduanya identik dalam Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Simbol terkait CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • beberapa blok seperti Kompatibilitas Hangul Jamo ditinggalkan karena tidak ada hubungannya dengan bahasa Cina.
  • Kangxi Radikal bukanlah karakter Tionghoa, ini adalah komponen grafis dari karakter Tionghoa, digunakan khusus untuk mengekspresikan radikal, .eg ⼻ (U + 2F3B) dan 彳 (U + 5F73), ⻜ (U + 2EDC) dan 飞 (U + 98DE)

Tanda baca umum lainnya muncul dalam bahasa China

Ini adalah jangkauan yang luas, beberapa tanda baca mungkin tidak pernah digunakan, beberapa tanda baca seperti ……”“banyak digunakan dalam bahasa Cina.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Ada juga banyak simbol yang berhubungan dengan Cina, seperti Yijing Hexagram Symbols atau Kanbun , tapi itu di luar topik. Saya menulis karakter non-Tionghoa di CJK untuk mendapatkan penjelasan yang lebih baik tentang apa itu aksara Tionghoa. Dan range diatas sudah mencakup hampir semua karakter yang muncul dalam tulisan Cina kecuali matematika dan notasi khusus lainnya.

Tambahan

Simbol dan Tanda Baca CJK

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Bentuk Lebar Separuh dan Lebar Penuh

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Lihat

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (dalam bahasa Cina, perhatikan bilah sisi kanan)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (perhatikan tabel bawah)
  3. http://www.unicode.org
Voyager
sumber
2

Blok kode Unicode yang diberikan oleh jawaban lain pasti mencakup sebagian besar karakter Unicode Cina, tetapi lihat beberapa blok kode lainnya juga.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Lihat pembahasan lebih lengkap saya di sini . Dan situs ini nyaman untuk menjelajahi Unicode.

Suragch
sumber
1

Untuk meringkas, sepertinya ini adalah mereka:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Lance Pollard
sumber