Saya telah menggunakan dan mematikan GNU SED selama beberapa tahun sekarang. Kadang-kadang saya sedikit pusing, tetapi bekerja dengan baik ... untuk set char byte tunggal!
Saya sekarang dan kemudian melihat referensi ke GNU SED sebagai Unicode-aware, tetapi yang paling dekat yang saya lihat dari ini adalah mode "binary" nya .. dan binary bukan Unicode.
Bisakah GSED memproses file teks Unicode pada resolusi CodePoint, termasuk dan terutama \ r \ n (Windows) ... dan jika bisa, apakah ia mengharapkan UTF-8, UTF-16, atau apa? dan bagaimana SED mendeteksi pengkodean?
10
Jawaban:
Saya tidak tahu banyak tentang sed, tetapi setelah beberapa Googling sulit tampaknya memiliki dukungan untuk berbagai halaman kode melalui variabel lingkungan LANG. Saya percaya UTF-8 sebenarnya adalah default dengan tidak adanya LANG. Saya tidak tahu bagaimana mengatur port Windows. Saya memang memiliki kecurigaan kuat bahwa sed tidak melakukan pemrosesan deteksi sama sekali pada input stream.
Sumber: /programming/67410/why-does-sed-fail-with-international-characters-and-how-to-fix http://omgili.com/mailinglist/cygwin/cygwin/com /20100520123926GA1432onderneming10xs4allnl.html
Anda juga dapat mencoba karakter melarikan diri seperti yang disebutkan di sini: http://forums.whirlpool.net.au/forum-replies-archive.cfm/841095.html Tampaknya itu sangat rumit.
sumber