Bagaimana cara mencegah file sitemap XML saya muncul di hasil pencarian Google seperti ini hasil dari site:
permintaan pencarian:
Saya tidak mengerti mengapa Google akan memilih untuk menampilkan file sitemap di hasil pencarian untuk memulai. File-file ini tidak dimaksudkan untuk konsumsi manusia.
Google harus dapat merayapinya untuk dapat memprosesnya, jadi saya tidak dapat melarangnya di robots.txt . Saya hanya tidak ingin mereka memasukkannya ke dalam hasil pencarian setelah memprosesnya.
google
sitemap
search-engine-indexing
googlebot
xml-sitemap
Stephen Ostermiller
sumber
sumber
/sitemap.xml
terdaftar di robots.txt dan kemudian tautan ke sekumpulan sitemaps lain seperti/sitemap-123.xml
dan/sitemap-124.xml
. Saya membuat ulang peta situs setiap hari dan jumlahnya berubah setiap hari. Yang diindeks adalah yang cukup lama. Saya tidak menautkannya ke mana pun di situs saya, tetapi ada kemungkinan beberapa situs lain memiliki tautan ke suatu tempat./sitemap.xml
saya berasumsi bahwa peta situs khusus ini sekarang akan keluar dari indeks. Saya juga ingin mencegah Google untuk menampilkannya kepada pengguna di masa mendatang.Jawaban:
Google mengindeks peta situs XML (seperti file XML apa pun). Jika Google mengetahui URL dan mengembalikan respons yang valid maka itu akan melewati aturan inklusi Google dan bisa diindeks. Secara pribadi, saya hanya mengirimkan sitemap melalui GWT dan menyertakan
Sitemap:
referensi di robots.txt dan ini tentu cukup untuk membuatnya diindeks.Metode yang disarankan untuk mencegah file-file ini diindeks oleh Google adalah dengan memasukkan
X-Robots-Tag
header respons HTTP saat melayani sitemap XML. Sebagai contoh:Sama seperti memasukkan tag robot META dalam file HTML,
X-Robots-Tag
header dapat digunakan untuk semua jenis file.Referensi: Dokumen ini (mulai November 2008!) Nampaknya mengutip John Mueller (Google) kita sendiri sehubungan dengan penggunaan
X-Robots-Tag
respons ketika berhadapan dengan peta situs XML.Ya, Google akan mengindeks & memberi peringkat pada file peta situs XML Anda
Untuk informasi lebih lanjut, lihat panduan pengembang Google:
Tag header Robots dan spesifikasi header HTTP X-Robots-Tag
sumber
X-Robots-Tag: noindex
kode tajuk? Di dalamsitemap.xml
ataurobots.txt
?header('X-Robots-Tag: noindex',true)
) atau, jika Anda menggunakan Apache maka dalam file .htaccess atau konfigurasi server Anda. Lihat jawaban Stephen sebagai contoh kode. Lihat juga panduan pengembang Google yang ditautkan ke atas.Jawaban MrWhite tentang menggunakan X-Robots-Tag tampaknya menjadi cara yang benar untuk melakukan ini.
Berikut adalah kode yang dapat digunakan dalam file konfigurasi .htaccess atau Apache untuk melakukannya. (Referensi: WebmasterWorld - Peta Situs muncul di SERP - Bagaimana mencegahnya? )
Di bawah nginx konfigurasinya adalah sebagai berikut. (Referensi: Contoh X-Robots-Tag Yoast )
sumber
Mengapa itu penting?
Jika Anda benar-benar dapat menemukan sitemap Anda di SERP maka Anda memiliki masalah yang lebih besar.
Saya akan lebih fokus pada mendapatkan halaman dengan konten yang bermanfaat. Dengan begitu, Anda akan mengalami kesulitan bahkan menemukan sitemap Anda. Bukan berarti Anda akan peduli pada titik itu.
PS
Hampir setiap orang menyimpan peta situs di tempat yang sama. Jadi, jika seseorang ingin menemukan di mana Anda menyimpannya, mereka akan :)
sumber
masukkan yang berikut ke dalam robots.txt
alih-alih kirimkan sitemap Anda melalui alat webmaster google.
sumber