Saya harus berurusan dengan file yang memiliki banyak karakter kontrol tidak terlihat, seperti "kanan ke kiri" atau "nol lebar non-joiner", ruang yang berbeda dari ruang normal dan sebagainya, dan saya memiliki masalah berurusan dengan itu.
Sekarang, saya ingin entah bagaimana melihat semua huruf dalam file yang diberikan, huruf demi huruf (saya ingin mengatakan "kiri ke kanan", tetapi saya sayangnya berurusan dengan bahasa kanan-ke-kiri) , sebagai codepoint unicode, hanya menggunakan alat pesta dasar (seperti vi
, less
, cat
...). Apakah mungkin?
Saya tahu saya dapat menampilkan file dalam heksadesimal oleh hexdump
, tetapi saya harus menghitung ulang codepoints. Saya benar-benar ingin melihat codepoint unicode yang sebenarnya, jadi saya bisa google mereka dan mencari tahu apa yang terjadi.
sunting: Saya akan menambahkan bahwa saya tidak ingin transcode ke pengkodean yang berbeda (karena itulah yang saya temukan online). Saya punya file di UTF8 dan itu bagus. Saya hanya ingin tahu codepoint persis semua surat.