Alat Webmaster Google memberi tahu saya bahwa robot memblokir akses ke peta situs

11

Ini adalah robots.txt saya :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Tetapi Alat Webmaster Google memberi tahu saya bahwa robot memblokir akses ke peta situs:

Kami mengalami kesalahan saat mencoba mengakses Peta Situs Anda. Harap pastikan Peta Situs Anda mengikuti pedoman kami dan dapat diakses di lokasi yang Anda berikan dan kemudian kirim kembali: URL dibatasi oleh robots.txt .

Saya membaca bahwa Alat Webmaster Google menyimpan cache robots.txt , tetapi file tersebut telah diperbarui lebih dari 36 jam yang lalu.

Memperbarui:

Menekan sitemap TEST tidak menyebabkan Google mengambil sitemap baru. Hanya SUBMIT sitemap yang bisa melakukan itu. (BTW, saya tidak melihat apa gunanya 'test sitemap' kecuali Anda menempelkan sitemap saat ini di sana - tidak mengambil salinan sitemap baru dari alamat yang diminta Anda masukkan sebelum tes - tapi itu pertanyaan untuk hari lain.)

Setelah mengirimkan (alih-alih menguji) sitemap baru situasinya berubah. Saya sekarang mendapatkan "URL diblokir oleh robots.txt . Peta situs berisi URL yang diblokir oleh robots.txt ." untuk 44 URL. Tepatnya ada 44 URL di peta situs. Ini berarti bahwa Google menggunakan sitemap baru tetapi masih berjalan dengan aturan robot lama (yang membuat semuanya terlarang) Tidak satu pun dari 44 URL berada di /wp-admin/atau /wp-includes/(yang agak tidak mungkin, karena robots.txt dibangun di atas lalat oleh plugin yang sama yang menciptakan sitemap).

Pembaruan 2:

Itu semakin buruk: pada halaman hasil Pencarian Google, deskripsi untuk homepage berbunyi: "Deskripsi untuk hasil ini tidak tersedia karena robots.txt situs ini - pelajari lebih lanjut". Semua halaman lain memiliki deskripsi yang bagus. Tidak ada robots.txt ATAU robot meta yang memblokir pengindeksan beranda.

Aku terjebak.

Gaia
sumber
Di Google Webmaster Tools> Health> URL Diblokir, Anda dapat segera menguji apakah robots.txt Anda akan memblokir URL sitemap Anda (atau URL lain yang ingin Anda uji). Tampaknya tidak seperti robots.txt Anda saat ini harus memblokir peta situs Anda, tetapi Anda mengatakan ini telah diperbarui. Apakah versi file robots.txt Anda sebelumnya memblokir ini?
MrWhite
1
Ya, versi sebelumnya memang memblokir. Saya kira google belum memperbarui cache-nya ...
Gaia
Saya memiliki masalah SAMA persis. Cache robots.txt saya berasal dari 23 April tahun ini, hari ini 25 April dan cache masih lama. Saya tidak punya waktu untuk menunggu, saya harus googleboot untuk mengindeks situs saya sekarang (ini adalah situs bisnis) tetapi sepertinya saya tidak bisa melakukan apa-apa, tunggu saja tidak tahu berapa lama. Sangat menyebalkan!

Jawaban:

8

Tampaknya Google mungkin belum memperbarui cache dari file robots.txt Anda. File robots.txt Anda saat ini (di atas) sepertinya tidak memblokir URL sitemap Anda.

Saya kira google belum memperbarui cache-nya.

Tidak perlu menebak. Di Alat Webmaster Google (GWT) di bawah "Kesehatan"> "URL yang Diblokir", Anda dapat melihat kapan robots.txt Anda terakhir diunduh dan apakah itu berhasil. Ini juga akan memberi tahu Anda tentang berapa banyak URL yang telah diblokir oleh file robots.txt.

referensi robots.txt di Alat Webmaster Google

Seperti disebutkan dalam komentar saya, GWT memiliki alat pemeriksa robots.txt ("Kesehatan"> "URL yang Diblokir"). Jadi, Anda dapat segera menguji perubahan pada robots.txt Anda (tanpa mengubah file Anda yang sebenarnya). Tentukan file robots.txt di textarea atas dan URL yang ingin Anda uji di textarea bawah dan itu akan memberi tahu Anda apakah mereka akan diblokir atau tidak.


Caching robots.txt

Permintaan robots.txt umumnya di-cache hingga satu hari, tetapi mungkin di-cache lebih lama dalam situasi di mana penyegaran versi yang di-cache tidak dimungkinkan (misalnya, karena batas waktu atau kesalahan 5xx). Respons yang di-cache dapat dibagikan oleh perayap yang berbeda. Google dapat menambah atau mengurangi masa pakai cache berdasarkan header HTTP Cache-Control max-age.

Sumber: Google Developers - Spesifikasi Robots.txt

TuanWhite
sumber
Mungkinkah itu terjadi 24 jam kemudian?
Gaia
Apa tanggal "Diunduh" seperti yang dilaporkan dalam Alat Webmaster? Itu akan memberi tahu Anda jika masih demikian . Seperti yang ditunjukkan pada tangkapan layar di atas (dari salah satu situs saya), file robots.txt terakhir diunduh pada "Sep 3, 2012" (3 hari lalu). Tetapi dalam kasus saya, tidak perlu mengunduh file lagi karena tidak ada yang berubah (header Terakhir yang Dimodifikasi harus sama). Seberapa sering Google mengambil file robots.txt Anda akan tergantung pada header Expires dan Last-Modified yang ditetapkan oleh server Anda.
MrWhite
Diunduh 22 jam yang lalu, dan kedaluwarsa tajuk mengatakan +24 jam. Saya akan mencoba lagi dalam beberapa jam ini harus diselesaikan!
Gaia
Itu tidak melakukannya. Google menggunakan sitemap baru tetapi masih berjalan dengan aturan robots.txt lama (yang membuat semuanya terlarang)
Gaia
"Itu tidak melakukannya" - apakah Google belum memperbarui cache dari file robots.txt Anda? Meskipun Anda mengatakan Anda mengubah file 36+ jam yang lalu dan dilaporkan telah diunduh 22 jam yang lalu ?! Apa yang Anda lihat ketika Anda mengklik tautan ke file robots.txt Anda?
MrWhite
2

Saya memiliki masalah yang sama dengan situs saya karena selama menginstal WP saya pilih tidak melacak dengan mesin pencari atau opsi yang sama.

Untuk mengatasi masalah ini:

  1. pergi ke Alat Webmaster merangkak hapus URL dan kirimkan Anda www.example.com/robots.txtdengan opsi ini -> hapus dari cache untuk mengubah konten atau ...
  2. tunggu sebentar
  3. kirim ulang URL sitemap Anda
  4. selesai
Mohammad
sumber