Saya tidak suka bahwa saya melihat banyak 404 kesalahan di access.log server web saya. Saya mendapatkan kesalahan itu karena crawler mencoba membuka file robots.txt , tetapi tidak dapat menemukannya. Jadi saya ingin menempatkan file robots.txt sederhana yang akan mencegah 404 kesalahan muncul di file log saya.
Apa file minimum robots.txt yang valid yang akan memungkinkan semua yang ada di situs dirayapi?
robots.txt
bessarabov
sumber
sumber
Minimal terbaik
robots.txt
adalah file yang benar-benar kosong.Arahan "null" lainnya seperti kosong
Disallow
atauAllow: *
tidak hanya tidak berguna karena tidak boleh, tetapi menambah kompleksitas yang tidak dibutuhkan.Jika Anda tidak ingin file tersebut benar-benar kosong - atau Anda ingin membuatnya lebih dapat dibaca manusia - cukup tambahkan komentar yang dimulai dengan
#
karakter, seperti# blank file allows all
. Crawler mengabaikan garis yang dimulai dengan#
.sumber
Saya akan mengatakan ini;
Ini akan memungkinkan Google untuk merayapi semuanya tetapi akan melarang Google untuk Merayapi panel aadminn Anda. Situasi yang ideal untuk Anda.
sumber