Apa itu format pengodean ANSI? Apakah ini format standar sistem? Apa bedanya dengan ASCII?
sumber
Apa itu format pengodean ANSI? Apakah ini format standar sistem? Apa bedanya dengan ASCII?
Pengkodean ANSI adalah istilah yang sedikit umum digunakan untuk merujuk ke halaman kode standar pada suatu sistem, biasanya Windows. Itu lebih tepat disebut sebagai Windows-1252 pada sistem Barat / AS. (Ini dapat mewakili halaman kode Windows tertentu lainnya pada sistem lain.) Ini pada dasarnya adalah perpanjangan dari karakter ASCII yang mencakup semua karakter ASCII dengan kode 128 karakter tambahan. Perbedaan ini disebabkan oleh fakta bahwa pengkodean "ANSI" adalah 8-bit daripada 7-bit seperti ASCII (ASCII hampir selalu dikodekan saat ini sebagai byte 8-bit dengan MSB diatur ke 0). Lihat artikel untuk penjelasan mengapa pengkodean ini biasanya disebut sebagai ANSI.
Nama "ANSI" adalah nama yang salah, karena tidak sesuai dengan standar ANSI yang sebenarnya, tetapi nama tersebut macet. ANSI tidak sama dengan UTF-8.
windows-1254
.Secara teknis, ANSI harus sama dengan US-ASCII. Ini mengacu pada standar ANSI X3.4, yang hanya merupakan ANSI versi ASCII yang diratifikasi organisasi . Penggunaan karakter top-bit-set tidak didefinisikan dalam ASCII / ANSI karena merupakan set karakter 7-bit.
Namun bertahun-tahun penyalahgunaan istilah oleh DOS dan kemudian komunitas Windows telah meninggalkan arti praktisnya sebagai "sistem codepage dari mesin apa pun yang sedang digunakan". Codepage sistem kadang-kadang juga dikenal sebagai 'mbcs', karena pada sistem Asia Timur yang dapat menjadi pengkodean multi-byte-per-karakter. Beberapa halaman kode bahkan dapat menggunakan byte top-bit-clear sebagai trailing byte dalam urutan multibyte, sehingga bahkan tidak sepenuhnya kompatibel dengan ASCII biasa ... tetapi bahkan kemudian, itu masih disebut "ANSI".
Pada pengaturan standar AS dan Eropa Barat, "ANSI" memetakan ke kode Windows halaman 1252. Ini tidak sama dengan ISO-8859-1 (meskipun sangat mirip). Di mesin lain, bisa jadi hal lain. Ini membuat "ANSI" sama sekali tidak berguna sebagai pengidentifikasi pengkodean eksternal.
sumber
Sebenarnya, tidak ada yang namanya pengkodean ANSI. Bahasa sehari-hari istilah ANSI digunakan untuk beberapa pengkodean yang berbeda:
sumber
Sekali waktu Microsoft, seperti orang lain, menggunakan set karakter 7-bit, dan mereka menciptakan sendiri ketika itu cocok untuk mereka, meskipun mereka terus ASCII sebagai subset inti. Kemudian mereka menyadari bahwa dunia telah beralih ke pengkodean 8-bit dan bahwa ada standar internasional di sekitarnya, seperti keluarga ISO-8859. Pada masa itu, jika Anda ingin mendapatkan standar internasional dan Anda tinggal di AS, Anda membelinya dari American National Standards Institute, ANSI, yang menerbitkan kembali standar internasional dengan merek dan nomor mereka sendiri (itu karena pemerintah AS ingin kesesuaian dengan standar Amerika, bukan standar internasional). Jadi salinan Microsoft ISO-8859 mengatakan "ANSI" di sampulnya. Dan karena Microsoft tidak terlalu terbiasa dengan standar pada masa itu, mereka tidak t menyadari bahwa ANSI menerbitkan banyak standar lain juga. Jadi mereka merujuk pada standar dalam keluarga ISO-8859 (dan varian yang mereka ciptakan, karena mereka tidak benar-benar memahami standar pada masa itu) dengan nama di sampul, "ANSI", dan menemukan jalannya ke Microsoft dokumentasi pengguna dan karenanya ke dalam komunitas pengguna. Itu sekitar 30 tahun yang lalu, tetapi Anda kadang-kadang masih mendengar nama hari ini.
sumber
ASCII hanya mendefinisikan halaman kode 7 bit dengan 128 simbol. ANSI memperluas ini hingga 8 bit dan ada beberapa halaman kode yang berbeda untuk simbol 128 hingga 255.
Penamaan ANSI tidak benar karena sebenarnya norma ISO / IEC 8859 yang mendefinisikan halaman kode ini. Lihat ISO / IEC 8859 untuk referensi. Ada 16 halaman kode ISO / IEC 8859-1 hingga ISO / IEC 8859-16.
Windows-1252 sekali lagi didasarkan pada ISO / IEC 8859-1 dengan beberapa modifikasi terutama dalam kisaran kontrol C1 yang diatur dalam kisaran 128 hingga 159. Wikipedia menyatakan bahwa Windows-1252 juga disebut sebagai ISO-8859-1 dengan yang kedua tanda hubung antara ISO dan 8859. (Luar biasa! Siapa yang melakukan hal seperti itu?!?)
sumber
Pada dasarnya "ANSI" mengacu pada codepage lawas pada Windows. Lihat juga artikel oleh Raymond Chen tentang topik ini:
127 karakter pertama identik dengan ASCII di sebagian besar halaman kode, namun karakter atas bervariasi.
Namun, ANSI tidak secara otomatis berarti CP1252 atau Latin 1.
Semua kebingungan meskipun Anda harus menghindari masalah seperti saat ini dan menggunakan Unicode.
sumber
Kalau-kalau PC Anda bukan PC "Barat" dan Anda tidak tahu halaman kode mana yang digunakan, Anda dapat melihat halaman ini: Referensi API Dukungan Bahasa Nasional (NLS)
[Microsoft menghapus referensi ini, ambil formulirnya dari web-arsip Referensi API Dukungan Bahasa Nasional (NLS)
Atau Anda dapat menanyakan registri Anda:
sumber
Saat menggunakan karakter byte tunggal, format ASCII menentukan 127 karakter pertama. Karakter yang diperluas dari 128-255 ditentukan oleh berbagai halaman kode ANSI untuk memungkinkan dukungan terbatas untuk bahasa lain. Untuk memahami string yang dikodekan ANSI, Anda perlu mengetahui halaman kode mana yang digunakannya.
sumber
Saya ingat ketika teks "ANSI" merujuk ke kode melarikan diri pseudo VT-100 yang dapat digunakan dalam DOS melalui driver ANSI.SYS untuk mengubah aliran teks streaming .... Mungkin bukan yang Anda maksudkan tetapi jika dilihat http: //en.wikipedia.org/wiki/ANSI_escape_code
sumber
ANSI (alias Windows-1252 / WinLatin1) adalah pengkodean karakter alfabet Latin, cukup mirip dengan ISO-8859-1 . Anda mungkin ingin melihatnya di Wikipedia .
sumber