Saya punya beberapa file pribadi dalam direktori di folder sekolah saya. Anda dapat melihat bahwa file ada dengan membuka myschool.edu/myusername/myfolder, tetapi mencoba mengakses file itu sendiri melalui myschool.edu/myusername/myfolder/myfile.html mengembalikan kesalahan 403.
Namun Google entah bagaimana berhasil mengambil konten dari file pribadi itu dan menyimpannya di cache! Bagaimana ini mungkin? [Sejak itu saya menghapus file-file itu, jadi saya hanya ingin tahu bagaimana Google berhasil melakukan ini.]
web-crawlers
security
googlebot
grautur
sumber
sumber
Jawaban:
Alasan yang paling mungkin adalah bahwa halaman tidak akan mengembalikan header 403.
Anda dapat memeriksanya menggunakan Bilah Alat Pengembang Web di Firefox atau Chrome. Alat ini terletak di bawah "Informasi" -> "Lihat Header Respons".
Juga, cara saya membuat halaman kesalahan saya adalah:
<?php header("Location: /error403.php",TRUE,301); ?>
Di .htaccess saya, saya menempatkan yang berikut:
Options -Indexes
ErrorDocument 403 /403.php
Ini menambahkan semua arahan ulang dengan cara yang benar dan membuat saya yakin saya mendapatkan jus dari halaman kesalahan saya.
Ini sebenarnya dapat diperpanjang dengan cara yang sangat keren jika situs web Anda memiliki mesin pencari yang menggunakan permintaan GET.
sumber