Mengapa Alat Webmaster Google merayapi URL yang tidak valid dan menampilkan 500 kesalahan?

11

Alat Webmaster Google melaporkan 12k + 500 kesalahan. Eeek!

Tidak ada URL yang valid - semuanya berisi www.youtube.com. Pertama, mengapa Google merayapi URL ini jika tidak ada? Saya menyediakan sitemap, dan tentu saja tidak ada di sitemap.

Saya tidak punya robots.txt memblokir apa pun. Saya telah memeriksa pengalihan yang tidak valid - tidak ada, dan memeriksa tag tidak tertutup atau sesuatu yang akan melemparkan www.youtube.com ke URL secara tidak sengaja - tidak ada.

Di setiap 'ditautkan dari', URL pengarah juga merupakan URL yang buruk, dengan www.youtube.com di dalamnya. Google Tools melaporkan tidak ada malware, dan saya tidak dapat memeriksa log server karena tuan rumah tidak akan memberi saya akses.

Sangat macet !! Ada ide yang dihargai!

Amos Kane
sumber
Bisakah Anda memposting beberapa contoh?
ionFish
Apakah situs web Anda Wordpress atau platform Blog lainnya?
Ubique
3
Jika Anda melihat kesalahan HTTP 500 (kesalahan server) untuk URL yang tidak valid, Anda mungkin memiliki masalah dalam pengaturan Anda - URL yang tidak valid harus mengembalikan 404 atau 410.
John Mueller

Jawaban:

8

Ada (setidaknya) dua alasan umum mengapa URL yang aneh dan rusak dapat muncul sebagai kesalahan perayapan di Alat Webmaster.

Kemungkinan pertama adalah bahwa seseorang telah menyalin halaman Anda (atau beberapa halaman lain yang memiliki pranala ke halaman Anda) dan merusak tautan dalam proses tersebut. Ini terjadi lebih sering daripada yang Anda kira; lihat misalnya pertanyaan keenam di posting blog Google Webmaster ini .

Kemungkinan lainnya adalah Googlebot sendiri mencoba mengikuti apa yang dianggapnya sebagai tautan JavaScript dan membuatnya berantakan . Anda biasanya dapat membedakan kedua kasus ini dengan mengunjungi halaman rujukan (yang seharusnya ada dan dapat diakses, jika Google berhasil merayapinya untuk memulai) dan mencari nama halaman target di sumbernya.

Apa pun itu, pada dasarnya ada dua hal yang dapat Anda lakukan: abaikan saja tautannya, atau buat beberapa aturan penulisan ulang untuk mencoba dan memetakan URL yang rusak menjadi yang berfungsi. Jika Anda dapat melihat pola yang jelas di URL, dan terbiasa dengan regexps, saya akan merekomendasikan pendekatan yang terakhir - itu akan membersihkan daftar galat perayapan Anda dan bahkan mungkin memberi Anda sedikit dan agak murahan, tetapi nyata, peningkatan PageRank nyata .

Opsi ketiga, jika Anda menemukan seseorang telah menyalin konten Anda tanpa izin, adalah mencoba dan menghapusnya . Anda bahkan dapat mengirim keluhan (dan / atau permintaan penghapusan resmi) ke penyedia hosting mereka, jika Anda yakin itu dibenarkan. Tentu saja, mengingat bahwa mereka sedang tampaknya menghubungkan kembali ke situs Anda, Anda mungkin tidak selalu menemukan bahwa sepadan dengan usaha.

Ilmari Karonen
sumber
0

Google mengindeks situs tidak langsung semua halaman sekaligus.

Halaman pengindeksan Google level tertinggi pertama. Kemudian setelah beberapa hari Google mencoba mengindeks halaman tingkat kedua yang lebih dalam (halaman tersebut, di mana Google menemukan tautan di tingkat halaman pertama), dan seterusnya. Dengan cara ini Google mencoba mengindeks setiap halaman di situs. Jadi Google membuat hierarki pohon tautan dan Google tahu halaman apa yang ditautkan ke setiap halaman.

Kemudian Google datang ke setiap halaman yang diindeks setelah beberapa waktu dan memeriksa apakah konten pada halaman diubah. Interval pengindeksan untuk setiap halaman dan setiap situs didasarkan pada banyak faktor.

Jadi, jika Anda menghapus beberapa halaman dan memperbarui semua tautan ke halaman ini di semua halaman lainnya - Google tidak segera mengetahuinya dan mencoba mengindeks halaman yang dihapus karena direncanakan untuk mengindeks halaman ini sesuai jadwal.

webvitaly
sumber