Saya memiliki teks yang disandikan dalam ANSI:
Ketika saya mencoba mengubahnya menjadi UTF-8 (menggunakan menu Notepad ++ Encoding> UTF-8), saya mendapatkan beberapa karakter aneh:
Saya pikir UTF-8 adalah superset dari ANSI dan saya tidak akan mengalami masalah seperti itu. Apakah ada yang bisa saya hindari kemunculan karakter aneh itu?
notepad++
character-encoding
utf-8
ansi
pengguna3658425
sumber
sumber
Jawaban:
UTF-8 bukan charset, hanya penyandian untuk Unicode. 128 karakter pertama sama dengan ASCII tetapi berbeda dalam 128 byte tinggi. Sebuah byte dengan set bit tinggi (atau> = 0x80) adalah karakter yang diperluas di ASCII sementara di UTF-8 menunjukkan byte awal dari urutan multi-byte. Itulah kasus 0x93 atau 0x94 di atas. Namun, saya tidak melihat ada yang aneh di file tersebut. Itu adalah kutipan cerdas atau kutipan dengan bentuk berbeda untuk membuka dan menutup kutipan, yang sering Anda lihat ketika menggunakan editor teks kaya seperti MS Word
Edit
Pertanyaannya sudah diedit. Saya pikir itu karena Anda telah memilih alat yang salah. The
encode
Item menu untuk mengubah encoding jika Anda memiliki display karakter yang salah. Itu hanya memperlakukan urutan byte yang sama dibaca dari disk sebagai pengkodean lain. Karena ASCII dan UTF-8 berbeda, Anda akan memiliki urutan byte UTF-8 yang tidak benar dan lihat hasilnya di atas. Anda harus memilihnyaconvert to UTF-8
untuk mengubah seluruh byte inputAnda juga bingung ANSI dan ASCII. ANSI sering merujuk ke Windows-1252, yang merupakan rangkaian karakter yang digunakan dalam bahasa Inggris Windows dan beberapa bahasa Eropa Barat. Ini adalah superset dari ISO 8859-1, meskipun ISO 8859-1 juga dapat disebut sebagai ANSI. ISO 8859-1 juga merupakan 256 codepoints pertama dari Unicode, jadi ini adalah bagian dari Unicode, tetapi tidak kompatibel dengan pengkodean UTF-8. ASCII adalah set karakter 7-bit dan merupakan bagian dari ANSI yang dikodekan oleh 8 bit, tetapi juga kadang-kadang disebut sebagai ANSI, meskipun tidak terlalu benar
https://en.wikipedia.org/wiki/ANSI_character_set
Secara umum hubungan antara set karakter adalah sebagai berikut
sumber