Cegah peta situs XML agar tidak muncul di hasil pencarian Google

23

Bagaimana cara mencegah file sitemap XML saya muncul di hasil pencarian Google seperti ini hasil dari site:permintaan pencarian:

sitemap di hasil pencarian

Saya tidak mengerti mengapa Google akan memilih untuk menampilkan file sitemap di hasil pencarian untuk memulai. File-file ini tidak dimaksudkan untuk konsumsi manusia.

Google harus dapat merayapinya untuk dapat memprosesnya, jadi saya tidak dapat melarangnya di robots.txt . Saya hanya tidak ingin mereka memasukkannya ke dalam hasil pencarian setelah memprosesnya.

Stephen Ostermiller
sumber
1
Hah. Menarik. Satu-satunya pemikiran yang saya miliki adalah jika Anda memiliki tautan ke sana di situs Anda, atau muncul di file sitemap Anda. Selain itu, saya tidak yakin apakah Anda merujuknya di file robots.txt Anda jika itu merupakan faktor. Saya tidak akan berpikir begitu, hanya sesuatu yang perlu dipertimbangkan. Saya menyediakan sitemap saya hanya melalui Google WMT saja dan belum melihat masalah ini-setidaknya belum. Saya bisa mengerti tidak ingin peta situs Anda publik. Saya tidak ingin milik saya publik. Terlalu banyak peretas / pencakar di luar sana.
closetnoc
3
Di situs khusus ini saya telah /sitemap.xmlterdaftar di robots.txt dan kemudian tautan ke sekumpulan sitemaps lain seperti /sitemap-123.xmldan /sitemap-124.xml. Saya membuat ulang peta situs setiap hari dan jumlahnya berubah setiap hari. Yang diindeks adalah yang cukup lama. Saya tidak menautkannya ke mana pun di situs saya, tetapi ada kemungkinan beberapa situs lain memiliki tautan ke suatu tempat.
Stephen Ostermiller
1
Jika tidak digunakan, pastikan itu dihapus, lalu kecualikan di file robots.txt Anda dan itu akan turun dari SERP dengan cukup cepat. Anehnya, menghapus URL di Google WMT membutuhkan waktu lama (berbulan-bulan bagi saya) sementara robots.txt cukup cepat.
closetnoc
1
Apakah Anda mengirimkan peta situs XML ke akun GWMT Anda?
Oleg
3
File sitemap masih ada sampai sekarang. Saya menghapusnya dan sekarang dialihkan ke /sitemap.xml saya berasumsi bahwa peta situs khusus ini sekarang akan keluar dari indeks. Saya juga ingin mencegah Google untuk menampilkannya kepada pengguna di masa mendatang.
Stephen Ostermiller

Jawaban:

18

Google mengindeks peta situs XML (seperti file XML apa pun). Jika Google mengetahui URL dan mengembalikan respons yang valid maka itu akan melewati aturan inklusi Google dan bisa diindeks. Secara pribadi, saya hanya mengirimkan sitemap melalui GWT dan menyertakan Sitemap:referensi di robots.txt dan ini tentu cukup untuk membuatnya diindeks.

Metode yang disarankan untuk mencegah file-file ini diindeks oleh Google adalah dengan memasukkan X-Robots-Tagheader respons HTTP saat melayani sitemap XML. Sebagai contoh:

X-Robots-Tag: noindex

Sama seperti memasukkan tag robot META dalam file HTML, X-Robots-Tagheader dapat digunakan untuk semua jenis file.

Referensi: Dokumen ini (mulai November 2008!) Nampaknya mengutip John Mueller (Google) kita sendiri sehubungan dengan penggunaan X-Robots-Tagrespons ketika berhadapan dengan peta situs XML.
Ya, Google akan mengindeks & memberi peringkat pada file peta situs XML Anda

Untuk informasi lebih lanjut, lihat panduan pengembang Google:
Tag header Robots dan spesifikasi header HTTP X-Robots-Tag

TuanWhite
sumber
Di mana saya harus menulis X-Robots-Tag: noindexkode tajuk? Di dalam sitemap.xmlatau robots.txt?
xameeramir
1
@student Ini header respons HTTP sehingga harus ditetapkan sebelum menyajikan file-file itu (sebagai bagian dari header respons HTTP) - tidak dapat diatur "di dalam" file-file tersebut. Bergantung pada bagaimana Anda menyajikan file-file ini, Anda dapat mengatur ini dalam kode sisi server Anda (mis. Dalam PHP header('X-Robots-Tag: noindex',true)) atau, jika Anda menggunakan Apache maka dalam file .htaccess atau konfigurasi server Anda. Lihat jawaban Stephen sebagai contoh kode. Lihat juga panduan pengembang Google yang ditautkan ke atas.
MrWhite
8

Jawaban MrWhite tentang menggunakan X-Robots-Tag tampaknya menjadi cara yang benar untuk melakukan ini.

Berikut adalah kode yang dapat digunakan dalam file konfigurasi .htaccess atau Apache untuk melakukannya. (Referensi: WebmasterWorld - Peta Situs muncul di SERP - Bagaimana mencegahnya? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Di bawah nginx konfigurasinya adalah sebagai berikut. (Referensi: Contoh X-Robots-Tag Yoast )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}
Stephen Ostermiller
sumber
2

Mengapa itu penting?

Jika Anda benar-benar dapat menemukan sitemap Anda di SERP maka Anda memiliki masalah yang lebih besar.

Saya akan lebih fokus pada mendapatkan halaman dengan konten yang bermanfaat. Dengan begitu, Anda akan mengalami kesulitan bahkan menemukan sitemap Anda. Bukan berarti Anda akan peduli pada titik itu.

PS

Hampir setiap orang menyimpan peta situs di tempat yang sama. Jadi, jika seseorang ingin menemukan di mana Anda menyimpannya, mereka akan :)

dasickle
sumber
4
Saya menggunakan Google untuk pencarian situs dan saya menemukan sitemap ketika menggunakannya. Akan sangat membingungkan bagi pengguna saya jika mereka mengkliknya.
Stephen Ostermiller
Menurut Anda, berapa banyak pengguna yang menggunakan Google untuk pencarian situs?
dasickle
3
Semua pengguna yang mengetikkan istilah pencarian ke dalam kotak pencarian di bagian atas halaman saya.
Stephen Ostermiller
Dalam hal itu. Sudahkah Anda mempertimbangkan untuk menggunakan sesuatu seperti swiftype.com untuk pencarian situs Anda? Ada top lain yang dapat Anda gunakan. Anda dapat memesan ulang, menghapus, dan menambahkan hasil. Anda juga mendapatkan statistik hebat dan lain
dasickle
-6

masukkan yang berikut ke dalam robots.txt

User-agent: *
Disallow: /sitemap.xml

alih-alih kirimkan sitemap Anda melalui alat webmaster google.

konghou
sumber
1
Bisakah Anda memperjelas logika Anda - kalimat pertama Anda tampaknya bertentangan dengan yang terakhir?
MrWhite
5
Apakah Google masih merayapi peta situs yang diblokir di robots.txt? Apakah Anda memiliki referensi untuk mendukung pernyataan itu?
Stephen Ostermiller
4
Jika Anda melarang sitemap.xml, saya cukup yakin itu tidak akan lagi dijelajahi. Bukan sesuatu yang Anda inginkan terjadi!
Maks
2
Google tidak akan merayapi dokumen apa pun dengan robots.txt tidak diizinkan. Lagi pula, tidak biasanya ... peta situs disertakan.