Sejak sekitar pertengahan Agustus 2014, beberapa server Google telah mengunduh semua (sangat) file biner besar di situs web saya, sekitar seminggu sekali. Semua IP ditampilkan sebagai milik Google, dan terlihat seperti ini: google-proxy-66-249-88-199.google.com. Ini adalah permintaan GET, dan mereka sangat mempengaruhi lalu lintas server saya.
Sebelum ini, saya tidak melihat lalu lintas dari IP proxy Google ini, jadi ini sepertinya sesuatu yang relatif baru. Saya memang melihat semua jenis lalu lintas dari IP Google lain, semuanya googlebot dan permintaan HEAD saja.
Saya tidak akan khawatir tentang ini kecuali bahwa semua file ini sedang diunduh oleh Google sekitar setiap minggu. Bandwidth yang digunakan mulai menjadi berlebihan.
Saya berspekulasi bahwa karena banyak dari file-file ini yang dapat dieksekusi Windows, mungkin Google mengunduhnya untuk melakukan pemindaian malware. Bahkan jika itu benar, apakah itu benar-benar perlu terjadi setiap minggu?
Contoh lalu lintas dari IP proxy google pada bulan November sejauh ini:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Pembaruan # 1: Saya lupa menyebutkan bahwa file yang dimaksud sudah ada di file robots.txt situs. Untuk menuntut konfigurasi robots.txt berfungsi dengan baik, saya juga menggunakan tester robots.txt di Google Webmaster Tools, yang menunjukkan bahwa file-file tersebut pasti sedang diblokir untuk semua bot Google, dengan satu pengecualian: Adsbot-Google. Saya juga tidak yakin tentang apa itu. DAN aku mencari Google untuk beberapa file, dan mereka TIDAK muncul di hasil pencarian.
Pembaruan # 2: Contoh: antara 5:12 dan 5:18 pagi PST pada 17 November, sekitar setengah lusin IP (semua google-proxy) melakukan GET pada semua file biner yang dipertanyakan, 27 total. Pada 4 November antara 14:09 dan 14:15 PST, IP yang sama pada dasarnya melakukan hal yang sama.
Pembaruan # 3: Pada titik ini tampak jelas bahwa meskipun ini adalah IP Google yang valid, mereka adalah bagian dari layanan proxy Google, dan bukan bagian dari sistem perayapan web Google. Karena ini adalah alamat proxy, tidak ada cara untuk menentukan dari mana sebenarnya permintaan GET berasal, atau apakah mereka berasal dari satu tempat atau banyak. Berdasarkan sifat sporadis GET, tampaknya tidak ada sesuatu yang jahat terjadi; kemungkinan hanya seseorang yang memutuskan untuk mengunduh semua binari saat menggunakan layanan proxy Google. Sayangnya, layanan itu tampaknya sepenuhnya tidak berdokumen, yang tidak membantu. Dari sudut pandang administrator situs, proksi agak menjengkelkan. Saya tidak ingin memblokir mereka, karena mereka memiliki kegunaan yang sah. Tapi mereka juga bisa disalahgunakan.
Jawaban:
Saya melakukan riset untuk pertanyaan ini dan menemukan beberapa tipis yang menarik, seperti:
1. Apakah ini crawler palsu? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Kesimpulan dari pengguna:
Kami tahu pratinjau langsung tidak mengunduh file Anda, jadi mari kita beralih ke pertanyaan 2.
2. Apakah itu bagian dari layanan Google? -> Apakah proksi Google ini crawler palsu: google-proxy-66-249-81-131.google.com?
Kesimpulan:
Tebakan saya pada ini sama dengan yang di atas. Seseorang mencoba menggunakan layanan Google untuk mengakses file Anda, seperti penerjemah.
Jika, seperti yang Anda katakan, file sudah diblokir oleh robots.txt, ini hanya bisa menjadi permintaan manual.
EDIT: Untuk membahas Komentar OP secara luas:
Bisakah crawler mengabaikan robots.txt? Iya. Berikut daftar yang menurut saya tidak dilakukan oleh Google, yang artinya itu adalah bot lain yang menggunakan proxy Google.
Bisakah itu menjadi bot buruk? Ya, dan untuk itu saya sarankan:
.htaccess banning:
Kode ini dapat mencekal IP atau agen Pengguna.
Atau gunakan Spider Trap, yang ditampilkan di sini
Saya menjaga pendapat saya bahwa ini adalah permintaan manual.
sumber