Ada 2 cara utama untuk mencegah mesin pencari mengindeks halaman tertentu :
- File Robots.txt untuk domain Anda.
- Tag Meta Robots di setiap halaman.
Robots.txt harus menjadi perhentian pertama Anda untuk pola URL yang cocok dengan beberapa file. Anda dapat melihat sintaks di sini dan lebih detail di sini . File robots.txt harus ditempatkan di folder root domain Anda, yaitu di http://www.yourdomain.com/robots.txt
, dan itu akan berisi sesuatu seperti:
User-agent: *
Disallow: /path/with-trailing-slash/
(Pewarnaan teks di atas dilakukan oleh perangkat lunak Stackexchange, dan harus diabaikan.)
Tag Meta Robots lebih fleksibel dan mampu , tetapi harus dimasukkan di setiap halaman yang ingin Anda pengaruhi.
Sekali lagi Google memiliki ikhtisar tentang cara menggunakan Meta Robots , dan cara menghapus halaman dari indeks mereka melalui Alat Webmaster. Wikipedia memiliki dokumentasi yang lebih komprehensif tentang Meta Robots , termasuk derivasi spesifik mesin pencari.
Jika Anda ingin melarang Google, Arsip Web, dan mesin pencari lainnya tidak menyimpan salinan halaman web Anda, maka Anda ingin tag berikut (ditampilkan dalam format HTML4):
<meta name="robots" content="noarchive">
Untuk mencegah pengindeksan dan menyimpan salinan :
<meta name="robots" content="noindex, noarchive">
Dan untuk mencegah kedua hal di atas , serta menggunakan tautan pada halaman untuk menemukan lebih banyak halaman untuk diindeks:
<meta name="robots" content="noindex, nofollow, noarchive">
Catatan 1: Ketiga tag meta di atas hanya untuk mesin pencari - mereka tidak memengaruhi proxy atau browser HTTP.
Catatan 2: Jika Anda sudah memiliki halaman yang diindeks dan diarsipkan, dan Anda memblokir halaman melalui robots.txt sementara pada saat yang sama menambahkan meta tag ke halaman yang sama, maka robots.txt akan mencegah mesin pencari dari melihat meta tag yang diperbarui.
Sebenarnya ada cara ketiga untuk mencegah Google dan mesin pencari lainnya mengindeks URL. Ini
X-Robots-Tag
Header Respons HTTP . Ini lebih baik daripada tag meta karena berfungsi untuk semua dokumen dan Anda dapat memiliki lebih dari satu tag.sumber
Ya, itu akan memperbaiki masalah. Untuk mencegah konten muncul di indeks Google Anda dapat menggunakan robots.txt atau tag meta html
Saat berikutnya situs Anda diindeks, ini akan membuat konten Anda keluar dari indeks Google.
Anda juga bisa memberi Anda
noarchive
nilainya - ini akan memblokir caching halaman Anda. Ini khusus Google:Anda dapat menggunakan 'alat penghapusan' di Alat Webmaster Google untuk meminta penghapusan konten Anda yang sangat mendesak. Perhatikan bahwa Anda harus memblokir pengindeksan konten Anda terlebih dahulu (menggunakan robots.txt atau tag meta robots).
Info lebih lanjut:
sumber
Jika tujuan Anda adalah agar halaman ini tidak terlihat oleh publik, yang terbaik adalah meletakkan kata sandi pada set halaman ini. Dan / atau memiliki beberapa konfigurasi yang hanya memungkinkan alamat tertentu yang masuk daftar putih dapat mengakses situs (ini dapat dilakukan di tingkat server, kemungkinan melalui host atau admin server Anda).
Jika tujuan Anda adalah untuk memiliki halaman-halaman ini, tidak diindeks oleh Google, atau mesin pencari lainnya, seperti yang disebutkan sebelumnya, Anda memang memiliki beberapa opsi, tetapi saya pikir penting untuk membedakan antara dua fungsi utama Google Search dalam hal ini. akal: Perayapan dan Pengindeksan.
Perayapan vs. Pengindeksan
Google merayapi situs Anda, Google mengindeks situs Anda. Perayap menemukan halaman situs Anda, pengindeksan mengatur halaman situs Anda. Informasi lebih lanjut tentang ini sedikit di sini .
Pembedaan ini penting ketika mencoba memblokir atau menghapus halaman dari "Indeks" Google. Banyak orang default untuk hanya memblokir melalui robots.txt, yang merupakan arahan yang memberitahu Google apa yang harus dirayapi (atau apa yang tidak). Sering diasumsikan bahwa jika Google tidak merayapi situs Anda, tidak mungkin untuk mengindeksnya. Namun, sangat umum untuk melihat halaman diblokir oleh robots.txt, diindeks di Google.
Arahan untuk Google & Mesin Pencari
Jenis "arahan" ini hanyalah rekomendasi untuk Google tempat bagian dari situs Anda dirayapi, dan diindeks. Mereka tidak diharuskan untuk mengikuti mereka. Ini penting untuk diketahui. Saya telah melihat banyak pengembang selama bertahun-tahun berpikir bahwa mereka hanya dapat memblokir situs melalui robots.txt, dan tiba-tiba situs tersebut diindeks di Google beberapa minggu kemudian. Jika orang lain menautkan ke situs tersebut, atau jika salah satu perayap Google entah bagaimana berhasil, ia masih dapat diindeks .
Baru-baru ini, dengan dashboard yang diperbarui dari GSC (Google Search Console), mereka memiliki laporan ini yang disebut "Laporan Cakupan Indeks." Data baru tersedia untuk webmaster di sini yang belum tersedia secara langsung sebelumnya, detail spesifik tentang cara Google menangani sekumpulan halaman tertentu. Saya telah melihat dan mendengar banyak situs web yang menerima "Peringatan," berlabel "Diindeks, tetapi diblokir oleh Robots.txt."
Dokumentasi terbaru Google menyebutkan bahwa jika Anda ingin halaman keluar dari indeks, tambahkan noindex nofollow tag ke sana.
Hapus Alat URL
Hanya untuk membangun apa yang beberapa orang lain sebutkan tentang "Hapus Alat URL" ....
Jika halaman sudah diindeks, dan sangat mendesak untuk mengeluarkannya, "Alat Hapus URL" Google akan memungkinkan Anda untuk "sementara" memblokir halaman dari hasil pencarian. Permintaan berlangsung selama 90 hari, tetapi saya telah menggunakannya untuk menghapus halaman lebih cepat dari Google daripada menggunakan noindex, nofollow, semacam lapisan tambahan.
Dengan menggunakan "Alat Hapus URL," Google masih akan merayapi halaman, dan mungkin men-cache-nya, tetapi saat Anda menggunakan fitur ini, Anda dapat menambahkan tag nofollow noindex, sehingga ia melihatnya, dan pada saat 90 hari sudah Facebook, semoga akan tahu untuk tidak mengindeks halaman Anda lagi.
PENTING: Menggunakan tag nofollow robots.txt dan noindex adalah sinyal yang agak bertentangan dengan Google.
Alasannya adalah, jika Anda memberi tahu google untuk tidak menjelajah halaman, dan kemudian Anda memiliki nofollow noindex di halaman itu, itu mungkin tidak merangkak untuk melihat tag nofollow noindex noindex. Itu kemudian dapat diindeks melalui beberapa metode lain (apakah tautan, atau yang lainnya). Rincian mengapa ini terjadi agak kabur, tetapi saya sudah melihatnya terjadi.
Singkatnya, menurut saya, cara terbaik untuk menghentikan pengindeksan URL spesifik adalah dengan menambahkan tag nofollow noindex ke halaman-halaman itu. Dengan itu, pastikan Anda tidak memblokir URL itu juga dengan robots.txt, karena itu bisa mencegah Google melihat tag tersebut dengan benar. Anda dapat memanfaatkan Hapus URL dari alat Google untuk menyembunyikannya sementara dari hasil pencarian saat Google memproses nofollow noindex Anda.
sumber