Bagaimana Googlebot menemukan URL yang hanya dapat dilihat oleh pengguna yang diautentikasi?

12

Ini adalah salah satu pelanggan saya, melakukan beberapa tindakan setelah masuk ke akunnya. Token unik hanyalah id pengguna + cap waktu terenkripsi.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +200] "DAPATKAN / beberapa aksi / unik-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (kompatibel; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Sekarang, entah bagaimana Googlebot mengetahui tentang tautan unik ini dan mencoba mengakses URL yang sama persis satu minggu kemudian.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "DAPATKAN / beberapa aksi / unik-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (kompatibel; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(kode status adalah 302 karena token telah kedaluwarsa)


Izinkan saya menekankan bahwa ini adalah URL unik yang terlihat tepat sekali, hanya 2 detik, sebelum pengguna mengkliknya dan melanjutkan untuk mengunjungi halaman itu. Itu tidak dikirim dalam email atau dipublikasikan di tempat umum.

Apa yang terjadi di sini, bagaimana mungkin Google menemukan URL unik ini?

Martin
sumber

Jawaban:

6

Sulit untuk mengatakannya dengan pasti, tetapi di sini ada beberapa skenario:

  • Pengguna memasang bilah alat browser atau ekstensi yang melaporkan URL yang mereka kunjungi ke Google.

  • Seseorang menautkan ke URL itu dan Google menemukannya dengan merayapi halaman dengan tautan itu.

John Conde
sumber
Jika Anda berbicara tentang Google Bilah Alat hanya mengirim kembali URL ke Google jika Anda mengaktifkan fitur "PageRank", tetapi kami tidak pernah menggunakan data itu untuk menemukan URL baru. Jika tentang beberapa toolbar lain yang dirilis oleh kami, beri tahu saya.
metode
5

Saya baru menyadari bahwa pengguna harus menemukan tautan keluar pada halaman terotentikasi ini, dan kemudian membocorkan URL pribadi seperti Refererketika mengklik ke beberapa situs web lain. Ini adalah satu-satunya penjelasan yang mungkin, dan seharusnya sudah jelas sejak awal.

Setelah bocor, URL pribadi mungkin telah terpapar ke Google dalam beberapa cara, misalnya situs target mungkin telah menerbitkan log akses mereka secara publik. Catatan: tidak ada tautan keluar yang menggunakan Google Analytics sehingga ini tidak menunjukkan bahwa Googlebot menggunakan URL pengarah dari Analytics.

Pelajaran yang didapat kembali: tidak pernah memasukkan data sensitif ke dalam URL kecuali Anda menggunakan https, dalam hal ini browser akan dibiarkan Refererkosong.

Martin
sumber
1
Anda benar: memasukkan data sensitif ke URL bisa berbahaya. Kapan pun Anda bisa, Anda harus memberikan ID pengguna unik antar halaman menggunakan permintaan POST (yang tidak mengirim variabel sebagai bagian dari URL, seperti MENDAPATKAN permintaan), atau dengan variabel cookie / sesi.
Nick