Saya sangat menyarankan mendaftarkan situs Anda dengan Google Search Console (sebelumnya Google Webmaster Tools) . Ada bagian akses perayap di bawah konfigurasi situs yang akan memberi tahu Anda ketika robots.txt Anda terakhir diunduh. Alat ini juga menyediakan banyak detail tentang bagaimana perayap melihat situs Anda, apa yang diblokir atau tidak berfungsi, dan di mana Anda muncul dalam kueri di Google.
Dari apa yang saya tahu, Google sering mengunduh robots.txt . Situs Google Search Console juga akan memungkinkan Anda menghapus URL dari indeks, sehingga Anda dapat menghapus URL yang sekarang Anda blokir.
Bertekun. Saya berubah dari robots.txt ke arah meta noindex, nofollow. Untuk membuat meta berfungsi, alamat yang diblokir di robots.txt harus diblokir terlebih dahulu.
Saya melakukan ini secara brutal dengan menghapus robots.txt sama sekali (dan menghapusnya di webmaster google).
Proses penghapusan robots.txt seperti yang terlihat di alat webmaster (jumlah halaman yang diblokir) membutuhkan waktu 10 minggu untuk diselesaikan, yang sebagian besar hanya dihapus oleh google selama 2 minggu terakhir.
sumber
Ya, Google jelas akan membuat cache robots.txt sampai batas tertentu - Google tidak akan mengunduhnya setiap kali ingin melihat halaman. Berapa lama cache untuk itu, saya tidak tahu. Namun, jika Anda memiliki set tajuk Kedaluwarsa yang panjang, Googlebot dapat membiarkannya lebih lama untuk memeriksa file.
Masalah lain bisa berupa file yang salah konfigurasi. Di Alat Webmaster yang disarankan danivovich, ada pemeriksa robots.txt . Ini akan memberi tahu Anda jenis halaman mana yang diblokir dan mana yang baik-baik saja.
sumber
Dokumentasi Google menyatakan bahwa mereka biasanya akan men-cache robots.txt selama sehari, tetapi mungkin menggunakannya lebih lama jika mereka mendapatkan kesalahan ketika mencoba menyegarkannya.
sumber
Iya. Mereka mengatakan bahwa mereka biasanya memperbaruinya sekali sehari, tetapi beberapa orang menyarankan mereka juga dapat memeriksanya setelah sejumlah klik halaman (100?) Sehingga situs yang lebih sibuk diperiksa lebih sering.
Lihat /webmasters//a/29946 dan video yang @DisgruntedGoat bagikan di atas http://youtube.com/watch?v=I2giR-WKUfY .
sumber
Dari apa yang dapat saya lihat pada cache yang dapat diakses pengguna yang mereka lakukan, yang perlu Anda lakukan adalah mengetik URL file robots.txt Anda ke dalam Pencarian Google dan kemudian klik panah dropdown hijau kecil dan klik 'cache' (lihat gambar di bawah) ( ini akan memberi Anda versi terbaru dari halaman itu dari server Googles.
sumber
Anda dapat meminta penghapusannya menggunakan alat penghapusan URL Google .
sumber