Situs diretas, perlu menghapus semua URL yang dimulai dengan + dari Google, gunakan robots.txt?

15

Bisakah Anda memberi tahu saya cara memblokir URL semacam itu robots.txtagar Googlebots berhenti mengindeks?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Situs web saya diretas yang sekarang dipulihkan tetapi peretas mengindeks 5.000 URL di Google dan sekarang saya mendapatkan kesalahan 404 pada tautan yang dibuat secara acak seperti di atas semuanya dimulai dengan /+tautan seperti di atas.

Saya bertanya-tanya apakah ada cara cepat selain menghapus URL ini secara manual dari Alat Webmaster Google?

Bisakah kita memblokir ini dengan robots.txtURL yang dimulai dengan +tanda?

unor
sumber
2
Tidak ada yang istimewa tentang +(plus) di jalur URL, itu hanya karakter seperti yang lain.
MrWhite
Anda dapat mengarahkan ulang Apache (dalam .htaccess) ke file atau direktori yang robots.txt melarang robot untuk mengakses
Mawg mengatakan mengembalikan Monica
@ Mawg Apa gunanya melakukan itu?
MrWhite
Untuk mencegah robot berperilaku baik?
Mawg mengatakan mengembalikan Monica
2
Terlepas dari masalah dengan URL, Anda mungkin ingin membaca Bagaimana cara menangani server yang disusupi?
Jonas Schäfer

Jawaban:

30

Situs web saya diretas yang sekarang dipulihkan tetapi peretas mengindeks 5.000 URL di Google dan sekarang saya mendapatkan kesalahan 404

A 404 mungkin lebih baik diblokir robots.txtjika Anda ingin URL ini dikeluarkan dari mesin pencari (mis. Google). Jika Anda memblokir perayapan maka URL masih bisa tetap diindeks. (Perhatikan bahwa robots.txtterutama memblokir perayapan , bukan pengindeksan .)

Jika Anda ingin "mempercepat" penghapusan indeks dari URL-URL ini, maka Anda mungkin dapat menayangkan "410 Gone" alih-alih "404 Not Found" yang biasa. Anda dapat melakukan sesuatu seperti berikut dengan mod_rewrite (Apache) di .htaccessfile root Anda :

RewriteEngine On
RewriteRule ^\+ - [G]
TuanWhite
sumber
14

Saya akan menjawab pertanyaan ke-2.

Saya bertanya-tanya apakah ada cara cepat selain menghapus URL ini secara manual dari alat webmaster google?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google secara eksplisit menyatakan bahwa penghapusan melalui Google Search Console (nama baru alat webmaster) adalah yang tercepat.

Jika peretas membuat URL yang sepenuhnya baru dan dapat dilihat pengguna, Anda dapat menghapus halaman ini lebih cepat dari hasil pencarian Google dengan menggunakan fitur Hapus URL di Search Console. Ini merupakan langkah yang sepenuhnya opsional. Jika Anda cukup menghapus halaman dan kemudian mengkonfigurasi server Anda untuk mengembalikan kode status 404, halaman-halaman tersebut secara alami akan keluar dari indeks Google seiring waktu.

Tetapi mereka juga memahami bahwa ini tidak layak untuk beberapa kasus:

Keputusan untuk menggunakan Penghapusan URL kemungkinan akan tergantung pada jumlah halaman baru yang tidak diinginkan yang dibuat (terlalu banyak halaman mungkin sulit untuk dimasukkan ke dalam Hapus URL), serta potensi kerusakan halaman ini dapat menyebabkan pengguna. Agar halaman yang dikirimkan melalui Penghapusan URL tidak pernah muncul di hasil pencarian, pastikan halaman tersebut juga dikonfigurasi untuk mengembalikan respons 404 File not Found untuk URL yang tidak diinginkan / dihapus.

Jadi, sementara Anda dapat memblokir halaman-halaman ini dalam robots.txt - Anda tidak mengambil salah satu langkah korektif seperti yang dijelaskan oleh google.

pastepotpete
sumber
4
User-Agent: *  
Disallow: /+

harus melakukan apa yang Anda inginkan. Ini akan memberi tahu robot untuk tidak meminta semua URL dimulai dengan a +.

Sven
sumber
2

Jika Anda benar-benar ingin menggunakan robots.txt ini akan menjadi jawaban sederhana untuk pertanyaan Anda. Juga saya telah menyertakan tautan ke tempat Anda dapat membaca spesifikasi pada robots.txt.

User-agent: *
Disallow: /+

Baca tentang spesifikasi robots.txt

Tetapi satu alternatif lain mungkin menggunakan .htaccess untuk membuat aturan penulisan ulang (jika Anda menggunakan Apache dll) untuk menangkap mereka dan mungkin memberi tahu Google kode HTTP pengembalian yang lebih baik atau untuk hanya mengarahkan lalu lintas ke halaman lain.

davidbl
sumber
2
Tidak perlu untuk *(tanda bintang) di akhir jalur URL. Itu harus dihapus untuk kompatibilitas spider terbesar. robots.txtsudah cocok dengan awalan, jadi /+*sama dengan /+bot yang mendukung wildcard, dan untuk bot yang tidak mendukung wildcard maka /+*tidak akan cocok sama sekali.
MrWhite
Anda benar, saya hanya menulis itu berdasarkan pertanyaannya tentang Googlebot. Saya telah mengeditnya untuk mencerminkan kompatibilitas yang lebih baik terhadap banyak bot.
davidbl