CentOS
Apakah ada cara mudah untuk mengonversi entitas khusus HTML dari aliran data? Saya meneruskan data ke skrip bash dan terkadang data itu mencakup entitas khusus. Sebagai contoh:
"test" & amp; test $ test! test @ # $% ^ & amp; *
Saya tidak yakin mengapa beberapa karakter muncul dengan baik dan yang lainnya tidak, tetapi sayangnya, saya tidak memiliki kendali atas data yang masuk.
Saya pikir saya mungkin bisa menggunakan SED di sini tapi sepertinya itu akan menjadi rumit dan mungkin rentan terhadap positif palsu. Apakah ada perintah Linux yang bisa saya gunakan untuk melakukan spesialisasi dalam decoding tipe data ini?
recode tampaknya tersedia di repositori paket-paket default dari distribusi GNU / Linux utama. Misalnya untuk mendekode entitas HTML ke UTF-8:
sumber
Dengan Python 3:
sumber
Mengambil file teks dari stdin:
Mungkin perlu bash> = versi 4
sumber