Apakah Google cache robots.txt?

17

Saya menambahkan file robots.txt ke salah satu situs saya seminggu yang lalu, yang seharusnya mencegah Googlebot dari mencoba mengambil URL tertentu. Namun, akhir pekan ini saya dapat melihat Googlebot memuat URL yang tepat itu.

Apakah Google cache robots.txt dan, jika ya, haruskah demikian?

Quog
sumber

Jawaban:

13

Saya sangat menyarankan mendaftarkan situs Anda dengan Google Search Console (sebelumnya Google Webmaster Tools) . Ada bagian akses perayap di bawah konfigurasi situs yang akan memberi tahu Anda ketika robots.txt Anda terakhir diunduh. Alat ini juga menyediakan banyak detail tentang bagaimana perayap melihat situs Anda, apa yang diblokir atau tidak berfungsi, dan di mana Anda muncul dalam kueri di Google.

Dari apa yang saya tahu, Google sering mengunduh robots.txt . Situs Google Search Console juga akan memungkinkan Anda menghapus URL dari indeks, sehingga Anda dapat menghapus URL yang sekarang Anda blokir.

danivovich
sumber
2
Saya memeriksa alat webmaster: file robots.txt valid dan baru-baru ini diambil 17 jam sebelum kunjungan terbaru ke halaman tersebut oleh googlebot. Saya menduga ini adalah masalah penyebaran melalui jaringan google - pada akhirnya semua server googlebot akan mengejar ketinggalan dengan instruksi robots.txt.
Quog
Bot Google tidak menggunakan robots.txt sesering pembaruan dilaporkan di Search Console. Sudah empat minggu sejak saya melakukan pembaruan, dan bot Google masih menggunakan robots.txt yang buruk - dan itu menghancurkan lalu lintas dan peringkat kami.
Corporate Geek
3

Bertekun. Saya berubah dari robots.txt ke arah meta noindex, nofollow. Untuk membuat meta berfungsi, alamat yang diblokir di robots.txt harus diblokir terlebih dahulu.

Saya melakukan ini secara brutal dengan menghapus robots.txt sama sekali (dan menghapusnya di webmaster google).

Proses penghapusan robots.txt seperti yang terlihat di alat webmaster (jumlah halaman yang diblokir) membutuhkan waktu 10 minggu untuk diselesaikan, yang sebagian besar hanya dihapus oleh google selama 2 minggu terakhir.

araldh
sumber
Saya cenderung setuju dengan Anda. Kami membuat kesalahan dan salah memperbarui file robots.txt. Google menyimpannya, dan menggunakannya empat minggu setelah kami memperbaiki kesalahan, dan menggantinya dengan robots.txt baru. Saya bahkan secara manual mengirimkan permintaan refresh di Google Webmaster Tools dan ... tidak ada. Ini benar-benar buruk karena mengakibatkan lalu lintas dan peringkat hilang. :(
Corporate Geek
2

Ya, Google jelas akan membuat cache robots.txt sampai batas tertentu - Google tidak akan mengunduhnya setiap kali ingin melihat halaman. Berapa lama cache untuk itu, saya tidak tahu. Namun, jika Anda memiliki set tajuk Kedaluwarsa yang panjang, Googlebot dapat membiarkannya lebih lama untuk memeriksa file.

Masalah lain bisa berupa file yang salah konfigurasi. Di Alat Webmaster yang disarankan danivovich, ada pemeriksa robots.txt . Ini akan memberi tahu Anda jenis halaman mana yang diblokir dan mana yang baik-baik saja.

DisgruntledGoat
sumber
Lihat komentar pada jawaban ini webmasters.stackexchange.com/questions/2272/…
Quog
2
@Quog: Lihat video terbaru ini: youtube.com/watch?v=I2giR-WKUfY Matt Cutts menyarankan agar robots.txt diunduh sekali sehari atau sekitar setiap 100 permintaan.
DisgruntledGoat
2

Dokumentasi Google menyatakan bahwa mereka biasanya akan men-cache robots.txt selama sehari, tetapi mungkin menggunakannya lebih lama jika mereka mendapatkan kesalahan ketika mencoba menyegarkannya.

Permintaan robots.txt umumnya di-cache hingga satu hari, tetapi mungkin di-cache lebih lama dalam situasi di mana penyegaran versi yang di-cache tidak dimungkinkan (misalnya, karena batas waktu atau kesalahan 5xx). Respons yang di-cache dapat dibagikan oleh perayap yang berbeda. Google dapat menambah atau mengurangi masa pakai cache berdasarkan header HTTP Cache-Control max-age.

Stephen Ostermiller
sumber
1

Iya. Mereka mengatakan bahwa mereka biasanya memperbaruinya sekali sehari, tetapi beberapa orang menyarankan mereka juga dapat memeriksanya setelah sejumlah klik halaman (100?) Sehingga situs yang lebih sibuk diperiksa lebih sering.

Lihat /webmasters//a/29946 dan video yang @DisgruntedGoat bagikan di atas http://youtube.com/watch?v=I2giR-WKUfY .

Studgeek
sumber
1

Dari apa yang dapat saya lihat pada cache yang dapat diakses pengguna yang mereka lakukan, yang perlu Anda lakukan adalah mengetik URL file robots.txt Anda ke dalam Pencarian Google dan kemudian klik panah dropdown hijau kecil dan klik 'cache' (lihat gambar di bawah) ( ini akan memberi Anda versi terbaru dari halaman itu dari server Googles.

masukkan deskripsi gambar di sini

sam
sumber
-2

Anda dapat meminta penghapusannya menggunakan alat penghapusan URL Google .

SOUZA KOZASHI
sumber
Ini tidak menjawab pertanyaan.
MrWhite
mengapa tidak jawabannya?
KOZASHI SOUZA
Karena pertanyaannya khusus tentang robots.txt, caching dan perayapan URL. Salah satu hasil dari ini mungkin URL tidak diindeks, tetapi itu bukan pertanyaannya. (Alat penghapusan URL Google juga hanya perbaikan "temporer", ada langkah-langkah lain yang perlu Anda lakukan untuk membuatnya permanen.)
MrWhite