Cara menghentikan url tertentu agar tidak diindeks

8

Ketika saya mengetik site:example.com(jelas menggunakan domain saya), saya mendapatkan beberapa kesalahan tautan yang muncul di daftar. Biasanya, mereka berbentuk:/some/fixed/path/admin/unblockUser/11

Saya berpikir untuk menambahkan baris berikut ke robots.txtfile saya :

Disallow: /some/fixed/path/admin/*
Simon Hayter
sumber

Jawaban:

18

Ada 2 cara utama untuk mencegah mesin pencari mengindeks halaman tertentu :

  1. File Robots.txt untuk domain Anda.
  2. Tag Meta Robots di setiap halaman.

Robots.txt harus menjadi perhentian pertama Anda untuk pola URL yang cocok dengan beberapa file. Anda dapat melihat sintaks di sini dan lebih detail di sini . File robots.txt harus ditempatkan di folder root domain Anda, yaitu di http://www.yourdomain.com/robots.txt, dan itu akan berisi sesuatu seperti:

User-agent: *
Disallow: /path/with-trailing-slash/

(Pewarnaan teks di atas dilakukan oleh perangkat lunak Stackexchange, dan harus diabaikan.)

Tag Meta Robots lebih fleksibel dan mampu , tetapi harus dimasukkan di setiap halaman yang ingin Anda pengaruhi.

Sekali lagi Google memiliki ikhtisar tentang cara menggunakan Meta Robots , dan cara menghapus halaman dari indeks mereka melalui Alat Webmaster. Wikipedia memiliki dokumentasi yang lebih komprehensif tentang Meta Robots , termasuk derivasi spesifik mesin pencari.

Jika Anda ingin melarang Google, Arsip Web, dan mesin pencari lainnya tidak menyimpan salinan halaman web Anda, maka Anda ingin tag berikut (ditampilkan dalam format HTML4):

<meta name="robots" content="noarchive">

Untuk mencegah pengindeksan dan menyimpan salinan :

<meta name="robots" content="noindex, noarchive">

Dan untuk mencegah kedua hal di atas , serta menggunakan tautan pada halaman untuk menemukan lebih banyak halaman untuk diindeks:

<meta name="robots" content="noindex, nofollow, noarchive">

Catatan 1: Ketiga tag meta di atas hanya untuk mesin pencari - mereka tidak memengaruhi proxy atau browser HTTP.

Catatan 2: Jika Anda sudah memiliki halaman yang diindeks dan diarsipkan, dan Anda memblokir halaman melalui robots.txt sementara pada saat yang sama menambahkan meta tag ke halaman yang sama, maka robots.txt akan mencegah mesin pencari dari melihat meta tag yang diperbarui.

Jesper M
sumber
1
Diturunkan? Mengapa ini diturunkan? Silakan tinggalkan komentar jika Anda memilih turun sehingga jawabannya dapat ditingkatkan.
Jesper M
@Jesper Mortensen Jawaban awal Anda sama sekali tidak menjawab pertanyaan caching. Suntingan Anda memperbaiki ini dan membuat info noindex jauh lebih baik. +1 sekarang ;-)
mawtex
1
Satu hal yang perlu diingat adalah bahwa directive robots.txt tidak mencegah pengindeksan URL juga tidak mengakibatkan penghapusan URL itu dari indeks. Mesin pencari dapat dan akan mengindeks URL tanpa merangkaknya (jika tidak diizinkan), jadi jika menghentikan URL agar tidak diindeks sangat penting (dan tidak hanya menghentikan konten agar tidak diindeks), maka Anda harus menggunakan tag meta robot atau x -robots-tag HTTP header dan pastikan URL tidak dilarang merangkak.
John Mueller
1
Selain itu, walaupun tidak selalu salah, tag meta robots dengan "noindex, noarchive" setara dengan "noindex" (ketika URL tidak diindeks, itu juga tidak diarsipkan / di-cache).
John Mueller
1
Akhirnya (maaf telah menambahkan begitu banyak komentar :-)), dalam kasus khusus ini (admin-pages), saya hanya akan memastikan bahwa URL mengembalikan 403 ketika tidak masuk. Itu juga mencegah mesin pencari mengindeks dan secara teori lebih jelas daripada memiliki halaman kembali 200 + menggunakan tag meta robot noindex. Hasil akhirnya sama dalam hasil pencarian, tetapi menggunakan kode hasil HTTP yang tepat dapat membantu Anda mengenali akses admin yang tidak sah dalam log Anda dengan lebih mudah.
John Mueller
5

Sebenarnya ada cara ketiga untuk mencegah Google dan mesin pencari lainnya mengindeks URL. Ini X-Robots-TagHeader Respons HTTP . Ini lebih baik daripada tag meta karena berfungsi untuk semua dokumen dan Anda dapat memiliki lebih dari satu tag.

Tag REP META memberi Anda kontrol yang berguna atas bagaimana setiap halaman web di situs Anda diindeks. Tapi itu hanya berfungsi untuk halaman HTML. Bagaimana Anda bisa mengontrol akses ke jenis dokumen lain, seperti file Adobe PDF, file video dan audio dan tipe lainnya? Nah, sekarang fleksibilitas yang sama untuk menentukan tag per-URL tersedia untuk semua jenis file lainnya.

Kami telah memperluas dukungan kami untuk tag META sehingga sekarang dapat dikaitkan dengan file apa pun. Cukup tambahkan tag META yang didukung ke arahan X-Robots-Tag baru di HTTP Header yang digunakan untuk melayani file. Berikut adalah beberapa contoh ilustratif: Jangan tampilkan tautan atau cuplikan cache untuk item ini dalam hasil pencarian Google: X-Robots-Tag: noarchive, nosnippet Jangan sertakan dokumen ini dalam hasil pencarian Google: X-Robots-Tag : noindex Beri tahu kami bahwa dokumen tidak akan tersedia setelah 7 Juli 2007, 4:30 sore GMT: X-Robots-Tag: available_after: 7 Jul 2007 16:30:00 GMT

Anda dapat menggabungkan beberapa arahan dalam dokumen yang sama. Misalnya: Jangan tampilkan tautan dalam tembolok untuk dokumen ini, dan hapus dari indeks setelah 23 Juli 2007, 15:00 PST: X-Robots-Tag: noarchive X-Robots-Tag: available_after: 23 Jul 2007 15:00:00 PST

John Conde
sumber
Tautan 'X-Robots_tag header' rusak.
mawtex
Terimakasih atas peringatannya. Chrome tampaknya memiliki masalah dengan bilah alat pemformatan dan menambahkan teks tambahan ke tautan.
John Conde
1

Ya, itu akan memperbaiki masalah. Untuk mencegah konten muncul di indeks Google Anda dapat menggunakan robots.txt atau tag meta html

<meta name="robots" content="noindex, nofollow" />

Saat berikutnya situs Anda diindeks, ini akan membuat konten Anda keluar dari indeks Google.

Anda juga bisa memberi Anda noarchivenilainya - ini akan memblokir caching halaman Anda. Ini khusus Google:

<meta name="robots" content="noarchive" />

Anda dapat menggunakan 'alat penghapusan' di Alat Webmaster Google untuk meminta penghapusan konten Anda yang sangat mendesak. Perhatikan bahwa Anda harus memblokir pengindeksan konten Anda terlebih dahulu (menggunakan robots.txt atau tag meta robots).

Info lebih lanjut:

mawtex
sumber
1

Jika tujuan Anda adalah agar halaman ini tidak terlihat oleh publik, yang terbaik adalah meletakkan kata sandi pada set halaman ini. Dan / atau memiliki beberapa konfigurasi yang hanya memungkinkan alamat tertentu yang masuk daftar putih dapat mengakses situs (ini dapat dilakukan di tingkat server, kemungkinan melalui host atau admin server Anda).

Jika tujuan Anda adalah untuk memiliki halaman-halaman ini, tidak diindeks oleh Google, atau mesin pencari lainnya, seperti yang disebutkan sebelumnya, Anda memang memiliki beberapa opsi, tetapi saya pikir penting untuk membedakan antara dua fungsi utama Google Search dalam hal ini. akal: Perayapan dan Pengindeksan.

Perayapan vs. Pengindeksan

Google merayapi situs Anda, Google mengindeks situs Anda. Perayap menemukan halaman situs Anda, pengindeksan mengatur halaman situs Anda. Informasi lebih lanjut tentang ini sedikit di sini .

Pembedaan ini penting ketika mencoba memblokir atau menghapus halaman dari "Indeks" Google. Banyak orang default untuk hanya memblokir melalui robots.txt, yang merupakan arahan yang memberitahu Google apa yang harus dirayapi (atau apa yang tidak). Sering diasumsikan bahwa jika Google tidak merayapi situs Anda, tidak mungkin untuk mengindeksnya. Namun, sangat umum untuk melihat halaman diblokir oleh robots.txt, diindeks di Google.


Arahan untuk Google & Mesin Pencari

Jenis "arahan" ini hanyalah rekomendasi untuk Google tempat bagian dari situs Anda dirayapi, dan diindeks. Mereka tidak diharuskan untuk mengikuti mereka. Ini penting untuk diketahui. Saya telah melihat banyak pengembang selama bertahun-tahun berpikir bahwa mereka hanya dapat memblokir situs melalui robots.txt, dan tiba-tiba situs tersebut diindeks di Google beberapa minggu kemudian. Jika orang lain menautkan ke situs tersebut, atau jika salah satu perayap Google entah bagaimana berhasil, ia masih dapat diindeks .

Baru-baru ini, dengan dashboard yang diperbarui dari GSC (Google Search Console), mereka memiliki laporan ini yang disebut "Laporan Cakupan Indeks." Data baru tersedia untuk webmaster di sini yang belum tersedia secara langsung sebelumnya, detail spesifik tentang cara Google menangani sekumpulan halaman tertentu. Saya telah melihat dan mendengar banyak situs web yang menerima "Peringatan," berlabel "Diindeks, tetapi diblokir oleh Robots.txt."

Dokumentasi terbaru Google menyebutkan bahwa jika Anda ingin halaman keluar dari indeks, tambahkan noindex nofollow tag ke sana.


Hapus Alat URL

Hanya untuk membangun apa yang beberapa orang lain sebutkan tentang "Hapus Alat URL" ....

Jika halaman sudah diindeks, dan sangat mendesak untuk mengeluarkannya, "Alat Hapus URL" Google akan memungkinkan Anda untuk "sementara" memblokir halaman dari hasil pencarian. Permintaan berlangsung selama 90 hari, tetapi saya telah menggunakannya untuk menghapus halaman lebih cepat dari Google daripada menggunakan noindex, nofollow, semacam lapisan tambahan.

Dengan menggunakan "Alat Hapus URL," Google masih akan merayapi halaman, dan mungkin men-cache-nya, tetapi saat Anda menggunakan fitur ini, Anda dapat menambahkan tag nofollow noindex, sehingga ia melihatnya, dan pada saat 90 hari sudah Facebook, semoga akan tahu untuk tidak mengindeks halaman Anda lagi.


PENTING: Menggunakan tag nofollow robots.txt dan noindex adalah sinyal yang agak bertentangan dengan Google.

Alasannya adalah, jika Anda memberi tahu google untuk tidak menjelajah halaman, dan kemudian Anda memiliki nofollow noindex di halaman itu, itu mungkin tidak merangkak untuk melihat tag nofollow noindex noindex. Itu kemudian dapat diindeks melalui beberapa metode lain (apakah tautan, atau yang lainnya). Rincian mengapa ini terjadi agak kabur, tetapi saya sudah melihatnya terjadi.


Singkatnya, menurut saya, cara terbaik untuk menghentikan pengindeksan URL spesifik adalah dengan menambahkan tag nofollow noindex ke halaman-halaman itu. Dengan itu, pastikan Anda tidak memblokir URL itu juga dengan robots.txt, karena itu bisa mencegah Google melihat tag tersebut dengan benar. Anda dapat memanfaatkan Hapus URL dari alat Google untuk menyembunyikannya sementara dari hasil pencarian saat Google memproses nofollow noindex Anda.

membangunkan zombie
sumber