Bagaimana Google berhasil merayapi 403 halaman saya?

Saya punya beberapa file pribadi dalam direktori di folder sekolah saya. Anda dapat melihat bahwa file ada dengan membuka myschool.edu/myusername/myfolder, tetapi mencoba mengakses file itu sendiri melalui myschool.edu/myusername/myfolder/myfile.html mengembalikan kesalahan 403.

Namun Google entah bagaimana berhasil mengambil konten dari file pribadi itu dan menyimpannya di cache! Bagaimana ini mungkin? [Sejak itu saya menghapus file-file itu, jadi saya hanya ingin tahu bagaimana Google berhasil melakukan ini.]

web-crawlers security googlebot grautur
sumber

Ini milik Webmaster

RobertPitt

Jawaban:

Alasan yang paling mungkin adalah bahwa halaman tidak akan mengembalikan header 403.

Anda dapat memeriksanya menggunakan Bilah Alat Pengembang Web di Firefox atau Chrome. Alat ini terletak di bawah "Informasi" -> "Lihat Header Respons".

Juga, cara saya membuat halaman kesalahan saya adalah:

Saya membuat beberapa halaman kesalahan boneka. Katakanlah 403.php .
Saya membuat halaman kesalahan yang sebenarnya. Misalnya error403.php .
Pada halaman kesalahan boneka, saya meletakkan kode berikut: <?php header("Location: /error403.php",TRUE,301); ?>
Di .htaccess saya, saya menempatkan yang berikut:

Options -Indexes

ErrorDocument 403 /403.php

Ini menambahkan semua arahan ulang dengan cara yang benar dan membuat saya yakin saya mendapatkan jus dari halaman kesalahan saya.

Ini sebenarnya dapat diperpanjang dengan cara yang sangat keren jika situs web Anda memiliki mesin pencari yang menggunakan permintaan GET.

Vergil Penkov
sumber