Jenis konten yang valid untuk dokumen XML, HTML dan XHTML

123

Apa tipe konten yang benar untuk dokumen XML, HTML dan XHTML?

Saya perlu menulis crawler sederhana yang hanya mengambil jenis file ini.

Saat ini http://example.net/index.html dapat berfungsi sebagai contoh file JPEG karena mod_rewrite, jadi saya perlu memeriksa jenis konten dari header respons dan membandingkannya dengan daftar jenis konten yang diizinkan.

Dari mana saya bisa mendapatkan daftar seperti itu?

astropanik
sumber
Tentang fragmen lihat stackoverflow.com/q/19303361/287948 dan w3.org/TR/xml-fragment
Peter Krauss

Jawaban:

206

HTML text/html:, titik.

XHTML: application/xhtml+xml, atau hanya jika mengikuti pedoman HTML compatbility, text/html. Lihat Catatan Jenis Media W3 .

XML: text/xml, application/xml( RFC 2376 ).

Ada juga banyak jenis media lain yang berbasis di sekitar XML, misalnya application/rss+xmlatau image/svg+xml. Ini adalah taruhan yang aman bahwa setiap akhiran yang tidak dikenali tetapi terdaftar +xmladalah berbasis XML. Lihat daftar IANA untuk jenis media terdaftar yang diakhiri dengan +xml.

(Untuk x-jenis yang tidak terdaftar , semua taruhan dibatalkan, tetapi Anda berharap +xmldihormati.)

bobince
sumber
32
Tentang perbedaan antara text/xmldan application/xmllihat di sini stackoverflow.com/questions/4832357/…
sanmai
Hal yang sama berlaku untuk fragmen , lihat w3.org/TR/xml-fragment atau qustion lainnya ini .
Peter Krauss