Unicode mungkin memiliki 50 ruang
\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000A \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A- \ u00020 \ u0085 \ u0085 \ u0085 \ u0085 u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000
dan 6 jeda baris
tidak hanya CRLF, LF, CR, tetapi juga NEL (U + 0085), PS (U + 2029) dan LS (U + 2028).
Mungkin saya bisa memahami sebagian besar ruang dan PS ("Pemisah paragraf"), tetapi apa gunanya "Baris Berikutnya" dan "Pemisah baris"?
Itu semua tampak seperti diciptakan oleh komite yang sangat besar di mana semua orang menginginkan ruang mereka sendiri dan para pemimpin diberikan satu jeda baris masing-masing. Tapi serius, bagaimana Anda menghadapinya ketika bahasa pemrograman Anda tidak mendukungnya (atau apakah itu salah seperti Java)?
Pattern.compile2010
metode pengembalian regex yang bekerja sesuai dengan definisi tahun lalu. Mereka juga bebas membuat metodePattern.compileLatestUTS
yang secara eksplisit menyatakan, bahwa artinya akan berubah sesuai dengan spesifikasi baru.Jawaban:
NEXT LINE (U + 0085) sering digunakan sebagai karakter baris baru pada sistem EBCDIC (seperti 0x15). Ini seperti CR + LF, tetapi sebagai satu karakter.
LINE SEPARATOR (U + 2028) dan PARAGRAPH SEPARATOR (U + 2029) dijelaskan di bagian 5.8 dari standar Unicode , yang menggambarkannya sebagai versi teks-biasa dari HTML
<br>
dan<p>
, untuk menyatukan fungsi "baris baru" ini. Namun dalam praktiknya, karakter ini tidak banyak digunakan.sumber