Bisakah Anda memberi tahu saya cara memblokir URL semacam itu robots.txt
agar Googlebots berhenti mengindeks?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Situs web saya diretas yang sekarang dipulihkan tetapi peretas mengindeks 5.000 URL di Google dan sekarang saya mendapatkan kesalahan 404 pada tautan yang dibuat secara acak seperti di atas semuanya dimulai dengan /+
tautan seperti di atas.
Saya bertanya-tanya apakah ada cara cepat selain menghapus URL ini secara manual dari Alat Webmaster Google?
Bisakah kita memblokir ini dengan robots.txt
URL yang dimulai dengan +
tanda?
+
(plus) di jalur URL, itu hanya karakter seperti yang lain.Jawaban:
A 404 mungkin lebih baik diblokir
robots.txt
jika Anda ingin URL ini dikeluarkan dari mesin pencari (mis. Google). Jika Anda memblokir perayapan maka URL masih bisa tetap diindeks. (Perhatikan bahwarobots.txt
terutama memblokir perayapan , bukan pengindeksan .)Jika Anda ingin "mempercepat" penghapusan indeks dari URL-URL ini, maka Anda mungkin dapat menayangkan "410 Gone" alih-alih "404 Not Found" yang biasa. Anda dapat melakukan sesuatu seperti berikut dengan mod_rewrite (Apache) di
.htaccess
file root Anda :sumber
Saya akan menjawab pertanyaan ke-2.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google secara eksplisit menyatakan bahwa penghapusan melalui Google Search Console (nama baru alat webmaster) adalah yang tercepat.
Tetapi mereka juga memahami bahwa ini tidak layak untuk beberapa kasus:
Jadi, sementara Anda dapat memblokir halaman-halaman ini dalam robots.txt - Anda tidak mengambil salah satu langkah korektif seperti yang dijelaskan oleh google.
sumber
harus melakukan apa yang Anda inginkan. Ini akan memberi tahu robot untuk tidak meminta semua URL dimulai dengan a
+
.sumber
Jika Anda benar-benar ingin menggunakan robots.txt ini akan menjadi jawaban sederhana untuk pertanyaan Anda. Juga saya telah menyertakan tautan ke tempat Anda dapat membaca spesifikasi pada robots.txt.
Baca tentang spesifikasi robots.txt
Tetapi satu alternatif lain mungkin menggunakan .htaccess untuk membuat aturan penulisan ulang (jika Anda menggunakan Apache dll) untuk menangkap mereka dan mungkin memberi tahu Google kode HTTP pengembalian yang lebih baik atau untuk hanya mengarahkan lalu lintas ke halaman lain.
sumber
*
(tanda bintang) di akhir jalur URL. Itu harus dihapus untuk kompatibilitas spider terbesar.robots.txt
sudah cocok dengan awalan, jadi/+*
sama dengan/+
bot yang mendukung wildcard, dan untuk bot yang tidak mendukung wildcard maka/+*
tidak akan cocok sama sekali.