Bisakah url sitemap relatif digunakan di robots.txt?

191

Di robots.txt, bisakah saya menulis URL relatif berikut untuk file sitemap?

sitemap: /sitemap.ashx

Atau apakah saya harus menggunakan URL lengkap (absolut) untuk file sitemap, seperti:

sitemap: http://subdomain.domain.com/sitemap.ashx

Kenapa saya bertanya-tanya:

  • Saya memiliki layanan blog baru, www.domain.com, yang memungkinkan pengguna untuk blog di accountname.domain.com.
  • Saya menggunakan wildcard, jadi semua subdomain (akun) menunjuk ke: "blog.domain.com".

Di blog.domain.com saya meletakkan robots.txt untuk membiarkan mesin pencari menemukan sitemap. Tetapi, karena wildcard, semua akun pengguna berbagi file robots.txt yang sama. Itulah sebabnya saya tidak dapat menggunakan alternatif kedua. Dan untuk saat ini saya tidak dapat menggunakan url menulis ulang untuk file txt. (Saya kira versi IIS nanti dapat menangani ini?)

Easyrider
sumber

Jawaban:

318

Menurut dokumentasi resmi di sitemaps.org , URL tersebut harus berupa URL lengkap:

Anda dapat menentukan lokasi peta situs menggunakan file robots.txt. Untuk melakukan ini, cukup tambahkan baris berikut termasuk URL lengkap ke sitemap:

Sitemap: http://www.example.com/sitemap.xml
unor
sumber
31
Harap perhatikan @ contoh unor memiliki: Peta Situs dengan huruf kapital S. Ini penting karena Robots.txt peka huruf besar-kecil.
BodgeIT
19
Dan pada topik kasus, robotstxt.org menentukan file yang akan dinamai robots.txttanpa
huruf
jika situs memuat https, URL peta situs disebutkan dengan http. Apakah ini baik-baik saja? Atau apakah kita harus meletakkan URL sitemap berdasarkan protokol?
Shams
4
@Shams: URL yang tercantum dalam peta situs Anda harus menggunakan protokol yang sama dan host yang sama dengan file peta situs. Jika situs Anda tersedia di bawah http dan https , Anda hanya boleh menyediakan satu peta situs (dengan varian kanonik) .
unor
2

Perayap Google tidak cukup pintar, mereka tidak dapat merayapi URL relatif, itu sebabnya selalu disarankan untuk menggunakan URL absolut untuk perayapan dan indeks yang lebih baik.

Karena itu, Anda tidak dapat menggunakan variasi ini

> sitemap: /sitemap.xml

Sintaks yang disarankan adalah

Sitemap: https://www.yourdomain.com/sitemap.xml

catatan:

  • Jangan lupa kapitalisasi huruf pertama dalam "sitemap"
  • Jangan lupa menaruh spasi setelah "Peta Situs:"
Deepak Mathur
sumber
-2

Pertanyaan teknis & logis yang bagus, temanku. Tidak ada dalam file robots.txt Anda tidak bisa pergi dengan URL relatif dari sitemap; Anda harus pergi dengan URL lengkap sitemap.

Lebih baik menggunakan "sitemap: https://www.example.com/sitemap_index.xml "

Di URL di atas setelah titik dua memberi ruang. Saya juga suka mendukung Deepak.

cstpl123
sumber