Ketika mencoba untuk mengkonversi file teks ke ASCII yang setara, saya mendapatkan pesan kesalahan itu iconv: illegal input sequence at position
.
Perintah yang saya gunakan adalah iconv -f UTF-8 -t ascii//TRANSLIT file
Karakter yang menyinggung adalah æ
.
File teks itu sendiri ada di sini .
Mengapa dikatakan urutan ilegal? Karakter input adalah karakter UTF-8 yang tepat (U + 00E6).
text-processing
character-encoding
unicode
pengguna13107
sumber
sumber
hexdump -C file
perintah dan mendapat0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
sebagai output.File yang Anda tautkan tampaknya UTF-8 di dalam dokumen HTML
Jika Anda menjalankannya melalui konverter HTML-ke-teks terlebih dahulu, mis
maka fragmen UTF-8 Anda tampaknya mengalami masalah dengan tampaknya transliterasi tanpa kesalahan yaitu
menjadi
The
html2text
utilitas tidak dapat diinstal pada sistem Anda - jika Anda tidak dapat menemukan / menginstalnya ada konverter lain termasuk modul python.sumber
file
perintah itu mengatakan ASCII, tetapi alasannya adalah bahwa itu hanya terlihat di awal file, dan karakter ISO-8859-1 muncul jauh, di posisi 181536.