Bagaimana cara mendekode file teks dengan simbol seperti \ uXXXX?

1

Saya memiliki file 10 Mb yang berisi \uXXXXkarakter. Bagaimana saya bisa mendekode ini dengan Teks Luhur?

Contoh:
masukkan deskripsi gambar di sini

LA_
sumber
Anda harus menautkan ke file atau mempersingkat bentuknya, meletakkannya di ge.tt karena tidak jelas apa yang Anda bicarakan
barlop
@barlop, ini contohnya - pastebin.com/GT6Wtx6z
LA_16

Jawaban:

1

Ada beberapa hal berbeda yang bisa Anda coba. Pertama dan terpenting, Anda harus menggunakan font Unicode yang mendukung karakter yang ingin Anda tampilkan. Situs ini di unicode.org adalah sumber yang bagus, dan Google sangat membantu, seperti biasa. Jika Anda tidak keberatan menggunakan font non-monospace, Arial Unicode MS hadir dengan Windows dan memiliki jangkauan yang cukup baik. Saya percaya font monospace yang dilakukan Consolas juga.

Kedua, sistem operasi Anda perlu diatur untuk menampilkan karakter-karakter tersebut - kebanyakan yang modern, tetapi Anda mungkin mengalami masalah dengan beberapa versi dan pengaturan Windows.

Di Sublime, pastikan Anda melihat file dalam mode yang benar - coba File -> Reopen with Encoding -> UTF-8atau ... -> UTF-16LE(atau BE, Anda dapat mencoba keduanya).

Jadi, tanpa mengetahui isi persis file Anda, bagaimana itu dihasilkan, dan lebih banyak detail tentang sistem Anda, itu yang terbaik yang bisa saya lakukan. Semoga berhasil!


EDIT

Berdasarkan file yang Anda tautkan, sepertinya ini adalah output dari program Python 2, karena datanya sepertinya beberapa daftar yang berisi string unicode (saya adalah programmer Python, seperti yang terjadi). Saya mencari beberapa codepoint yang disebutkan, dan semuanya Cyrillic, jadi hampir semua font modern harus menanganinya. Masalahnya adalah bahwa Anda akan memerlukan program untuk membaca file dan menerjemahkan masing-masing byte. Jika Anda tertarik, string penuh pertama (dari 'ke ') adalah:

Любимая акция вернулась! В ресторанах Евразия "" 3 ролла по цене 1 ""! С 9 по 12 сентября! Только эти 4 дня! Подробности на evrasia.spb.ru, 88005050145 dan 008

Tanpa memiliki seluruh file, saya tidak dapat menguraikan semuanya untuk Anda, tetapi jika Anda seorang programmer Python, Anda harus tahu apa yang harus dilakukan (saya sarankan menggunakan Python 3, dukungan Unicode-nya jauh lebih baik daripada 2.x ). Jika tidak, cari orang yang membuat file dan minta mereka untuk memecahkan kode byte untuk Anda.

MattDMo
sumber
Terima kasih atas jawaban anda. Saya menggunakan OSX versi terbaru dan tidak ada masalah dengan tampilan karakter Unicode. Saya telah menambahkan contoh file ke komentar pertanyaan saya.
LA_16
@LA_ terima kasih atas tautannya, yang memecahkan masalah. Lihat hasil edit saya di atas untuk apa yang harus dilakukan.
MattDMo
Terima kasih. Saya orang yang membuat file (= itu diunduh secara massal dari Google App Engine), saya sudah menemukan cara bagaimana mendekode dengan Python. Tapi tetap saya tertarik jika saya bisa melakukan hal yang sama dengan Sublime (atau dengan konsol Python bawaan).
LA_16
@LA_ Sublime Text 3 dibangun di atas Python 3.3, jadi yang perlu Anda lakukan adalah menempelkan setiap string ke konsol dan itu akan menampilkan pengkodean yang benar. Namun, ini tidak benar-benar layak untuk file 10MB, jadi sebuah plugin akan bekerja lebih baik.
MattDMo
saya tidak dapat mengakses teks dari file yang dibuka dari konsol?
LA_16