Pertanyaan yang diberi tag unicode

441
Cara terbaik untuk membalik string

Saya baru saja menulis fungsi string reverse di C # 2.0 (yaitu LINQ tidak tersedia) dan muncul dengan ini: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return...

395
Apa itu Unicode, UTF-8, UTF-16?

Apa dasar untuk Unicode dan mengapa kebutuhan untuk UTF-8 atau UTF-16? Saya telah meneliti ini di Google dan mencari di sini juga tetapi tidak jelas bagi saya. Dalam VSS ketika melakukan perbandingan file, kadang-kadang ada pesan yang mengatakan bahwa kedua file memiliki UTF yang berbeda. Mengapa...

360
Mengapa 2+ 40 sama dengan 42?

Saya bingung ketika seorang kolega menunjukkan saya jajaran JavaScript yang memperingatkan 42 ini. alert(2+ 40); Jalankan cuplikan kodeSembunyikan hasilLuaskan cuplikan Dengan cepat ternyata apa yang tampak seperti tanda minus sebenarnya adalah karakter Unicode yang misterius dengan semantik...

359
Bagaimana cara saya menerima semua karakter non-ASCII?

Saya memiliki beberapa file XML yang sangat besar dan saya mencoba menemukan garis yang berisi karakter non-ASCII. Saya sudah mencoba yang berikut ini: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Tapi ini mengembalikan setiap baris dalam file, terlepas dari apakah baris tersebut mengandung karakter...

348
Cara menemukan panjang string di R

Bagaimana menemukan panjang string (jumlah karakter dalam string) tanpa membaginya dalam R? Saya tahu cara menemukan panjang daftar tetapi bukan string. Dan bagaimana dengan string Unicode? Bagaimana cara menemukan panjang (dalam byte) dan jumlah karakter (rune, simbol) dalam string...

257
UnicodeDecodeError, byte kelanjutan tidak valid

Mengapa item di bawah ini gagal? dan mengapa itu berhasil dengan codec "latin-1"? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") menghasilkan: Traceback (most recent call last): File "<stdin>", line 1, in <module>...

244
Ganti karakter non-ASCII dengan satu spasi

Saya perlu mengganti semua karakter non-ASCII (\ x00- \ x7F) dengan spasi. Saya terkejut bahwa ini tidak mudah mati di Python, kecuali saya kehilangan sesuatu. Fungsi berikut hanya menghapus semua karakter non-ASCII: def remove_non_ascii_1(text): return ''.join(i for i in text if...

241
Python: Menghapus \ xa0 dari string?

Saat ini saya menggunakan Beautiful Soup untuk mem-parsing file HTML dan menelepon get_text(), tetapi sepertinya saya dibiarkan dengan banyak \ xa0 Unicode yang mewakili spasi. Apakah ada cara yang efisien untuk menghapus semuanya di Python 2.7, dan mengubahnya menjadi spasi? Saya kira pertanyaan...