Bagaimana cara menghapus ribuan URL dari cache Google?

13

Google telah menyimpan 1000s PDF dari situs web saya yang seharusnya tidak bersifat publik. Saya telah memperbarui header saya, tetapi perlu menghapus cache Quick View yang ada.

Alat webmaster Google memungkinkan saya menghapusnya satu per satu - namun, ini jelas tidak praktis mengingat jumlah file yang akan dihapus.

Adakah yang tahu bagaimana saya bisa menghapus file PDF dari cache Google? Idealnya saya ingin cara menghapus semua yang cocok dengan "situs: mysite.com * .pdf"


sumber
3
Pencarian google cepat menunjukkan bahwa tidak mungkin untuk menghapus batch menggunakan Google API, Anda harus menyusun skrip Anda sendiri yang menghapus tautan satu per satu

Jawaban:

9

Sepertinya Anda sudah menemukan cara untuk meminta penghapusan satu URL , yang jelas keluar dari pertanyaan di sini. Langkah kedua dalam proses itu juga memungkinkan Anda meminta penghapusan seluruh direktori , jika URL file dapat diprediksi dengan cara tertentu. (Jika Anda memiliki ribuan PDF, saya harap mereka setidaknya agak terorganisir.) Jika tidak, Anda cukup banyak pilihan, sayangnya.

Su '
sumber
2

Baru-baru ini saya memiliki peretasan yang menambahkan beberapa ribu halaman palsu ke situs saya.

Saya mengirimkan sitemap yang diperbaiki ke Google Search Console (sebelumnya disebut Webmaster Tools) dan mengubah semua tautan menjadi 410, tetapi Google masih memiliki sebagian besar dari mereka diindeks.

Saya menggunakan Alat WebMaster - Penghapusan URL massal Ekstensi Chrome untuk secara otomatis mengirimkan url untuk dihapus. Ini pada dasarnya adalah skrip yang mengambil daftar URL lalu mengirimkannya untuk Anda, satu per satu. Diperlukan waktu berjam-jam untuk mengirimkan semuanya, tetapi setidaknya Anda tidak harus melakukannya sendiri. Inilah artikel tentang cara menggunakannya .

Anda bisa mendapatkan daftar URL yang diindeks oleh google dengan mengunduh data langsung dari Search Console. Buka Status> Indeks Cakupan dan pilih hasil yang valid kemudian gulir ke bawah. Anda akan melihat bahwa Google telah mengindeks satu ton URL yang tidak ada dalam peta situs Anda. Anda dapat mengunduh 1000 hasil pertama. Tampaknya ada cara bundaran untuk mendapatkan semuanya, bukan hanya seribu pertama, tetapi melibatkan panggilan API dari excel. Saya hanya menunggu beberapa hari di antara setiap seribu, karena mereka perlahan keluar dari indeks.

Snapshot Cakupan Indeks Google

Rute lain adalah membuat plugin WP membuat peta situs, lalu memfilter PDF atau apa pun yang Anda targetkan. Anda mungkin harus melakukan sedikit salin / tempel / hapus manual di sini. Agar aman, saya perlahan menelusuri daftar sekitar 2.700 URL spam dan menghapus URL yang sah. Hanya butuh sekitar 20 menit.

Jika Anda tidak mencoba untuk mem-nuke secara permanen sesuatu, seperti spam, dan malah mencoba untuk mengaburkan sumber daya premium, Anda harus menggunakan metode lain untuk mencegah pengindeksan sumber daya tersebut, seperti file robot. Tetapi jika ternyata Google tidak mendengarkan atau Anda menjatuhkan bola, setidaknya sekarang Anda dapat memperbaiki masalah dan menyingkirkan mereka dari indeks hanya dalam beberapa hari.

Dalam keadaan khusus saya, saya bertanya-tanya mengapa Google tidak memiliki tombol mesin waktu, atau membatalkan, atau mengatur ulang. Idenya adalah bahwa saya dapat memberi tahu Google bahwa situs itu diretas beberapa hari yang lalu, tetapi kami telah memperbaikinya, oleh karena itu batalkan x hari terakhir perayapan dan pengindeksan. Tapi itu terlalu mudah.

51336
sumber
1

Jika file "tidak boleh publik" maka mereka harus di internet publik. Anda dapat menghapus file dari daftar Google (melalui robots.txt dan metode lain), tetapi jika file tersebut masih ada maka siapa pun masih dapat mengunduhnya.

Anda harus menyimpannya di belakang semacam otentikasi. Misalnya, pindahkan file dari direktori web publik dan sajikan dari skrip yang memeriksa apakah pengguna valid terlebih dahulu.

DisgruntledGoat
sumber