Saya memiliki beberapa halaman di situs saya yang saya ingin jauhkan dari mesin pencari, jadi saya melarangnya di robots.txt
file saya seperti ini:
User-Agent: *
Disallow: /email
Namun saya baru-baru ini memperhatikan bahwa Google terkadang masih mengembalikan tautan ke halaman-halaman itu dalam hasil pencarian mereka. Mengapa ini terjadi, dan bagaimana saya bisa menghentikannya?
Latar Belakang:
Beberapa tahun yang lalu, saya membuat situs web sederhana untuk klub yang melibatkan kerabat saya. Mereka ingin memiliki tautan email di halaman mereka, jadi, untuk mencoba dan menjaga agar alamat email tersebut tidak berakhir pada terlalu banyak daftar spam, alih-alih menggunakan mailto:
tautan langsung, saya membuat tautan-tautan itu menunjuk ke skrip perangkap pemanen / alamat sederhana yang berjalan di situs saya sendiri. Skrip ini akan mengembalikan 301 redirect ke mailto:
URL aktual , atau, jika mendeteksi pola akses yang mencurigakan, halaman yang berisi banyak alamat email palsu dan tautan palsu ke lebih banyak halaman seperti itu. Untuk menjauhkan bot pencarian yang sah dari jebakan, saya membuat robots.txt
aturan yang ditunjukkan di atas, melarang seluruh ruang tautan redirector dan halaman jebakan yang sah.
Namun, baru-baru ini, salah satu orang di klub mencari nama mereka di Google dan cukup terkejut ketika salah satu hasil di halaman pertama adalah tautan ke skrip pengalih, dengan judul yang terdiri dari alamat email mereka diikuti dengan nama saya Tentu saja, mereka segera mengirimi saya email dan ingin tahu cara mengeluarkan alamat mereka dari indeks Google. Saya juga cukup terkejut, karena saya tidak tahu bahwa Google akan mengindeks URL semacam itu sama sekali, yang tampaknya melanggar robots.txt
aturan saya .
Saya berhasil mengirim permintaan penghapusan ke Google, dan tampaknya berhasil, tetapi saya ingin tahu mengapa dan bagaimana Google mengelak robots.txt
seperti saya itu dan bagaimana memastikan bahwa tidak ada halaman yang dilarang akan muncul di halaman mereka. Hasil Pencarian.
Ps. Saya benar-benar menemukan penjelasan dan solusi yang mungkin, yang akan saya posting di bawah, sambil menyiapkan pertanyaan ini, tetapi saya pikir saya akan menanyakannya kalau -kalau ada orang lain yang memiliki masalah yang sama. Silahkan mengirimkan jawaban Anda sendiri. Saya juga tertarik untuk mengetahui apakah mesin pencari lain juga melakukan ini, dan apakah solusi yang sama juga berlaku untuk mereka.
sumber
robots.txt
file seperti "Dilarang" tanda kecil di samping jalan seseorang. Itu bukan sihir, dan (kecuali jika pengunjung secara eksplisit mencarinya) mereka dapat berkeliaran di properti Anda tanpa sedikit pun terpengaruh oleh keberadaannya. Ada internet yang setara dengan lampu sorot dan pagar razorwire, tetapi jika itu yang Anda inginkan,robots.txt
bukan?Jawaban:
Tampaknya Google sengaja memasukkan URL yang tidak diizinkan dalam
robots.txt
indeks mereka jika ada tautan ke URL itu dari halaman lain yang telah mereka jelajahi. Mengutip halaman bantuan Alat Webmaster mereka :Tampaknya, Google menafsirkan
Disallow
arahanrobots.txt
sebagai larangan merayapi halaman, bukan menentang mengindeksnya . Saya kira itu secara teknis interpretasi yang valid, bahkan jika itu menampar aturan yang memihak saya.Dalam artikel wawancara ini , Matt Cutts dari Google memberikan sedikit lebih banyak latar belakang dan memang memberikan penjelasan yang masuk akal mengapa mereka melakukan ini:
Solusi yang disarankan pada kedua halaman tersebut adalah menambahkan
noindex
meta tag ke halaman yang tidak ingin Anda indeks. (X-Robots-Tag
Tajuk HTTP juga harus berfungsi untuk halaman non-HTML. Namun, saya tidak yakin apakah itu berfungsi pada arahan ulang.) Secara paradoks, ini berarti Anda harus mengizinkan Googlebot untuk merayapi halaman tersebut (baik dengan menghapusnya darirobots.txt
seluruhnya, atau dengan menambahkan seperangkat aturan yang terpisah dan lebih permisif untuk Googlebot), karena jika tidak, ia tidak dapat melihat tag meta sejak awal.Saya telah mengedit skrip pengalihan / spider saya untuk mengirim meta tag dan
X-Robots-Tag
header dengan nilainyanoindex,nofollow
dan memungkinkan Googlebot merayapi URL skrip di sayarobots.txt
. Kami akan melihat apakah itu berfungsi setelah Google mengindeks ulang situs saya.sumber
Memang benar bahwa sementara ini harus mencegah Google (dan bot yang baik) dari merayapi halaman ini dan membaca konten mereka, mereka masih bisa menampilkan tautan URL saja di SERPs jika mereka ditautkan ke, dari formulir:
Seperti yang Anda lihat, tidak ada judul atau deskripsi, secara harfiah hanya URL. Biasanya jenis hasil ini biasanya dihilangkan dari SERPs, kecuali jika Anda mencarinya secara eksplisit.
Dan seperti yang Anda sebutkan dalam jawaban Anda, jika Anda tidak ingin URL muncul sama sekali di SERP, maka Anda perlu mengizinkan robot, tetapi sertakan tag meta noindex.
sumber