Apakah perusahaan telah menyiratkan hak untuk merayapi situs web saya?

30

Saya telah menemukan bahwa McAfee SiteAdvisor telah melaporkan situs web saya sebagai "mungkin mengalami masalah keamanan" .

Saya tidak terlalu peduli dengan apa pun yang dipikirkan McAfee tentang situs web saya (saya dapat mengamankannya sendiri dan jika tidak, McAfee jelas bukan perusahaan yang akan saya minta bantuan, terima kasih banyak). Apa yang menggangguku adalah mereka rupanya merangkak situs web saya tanpa seizin saya.

Untuk memperjelas: Hampir tidak ada konten di situs web saya, hanya beberapa placeholder dan beberapa file untuk penggunaan pribadi saya. Tidak ada ToS.

Pertanyaan saya adalah: Apakah McAffee memiliki hak untuk mengunduh konten dari / merangkak situs web saya? Bisakah saya melarang mereka melakukannya? Saya merasa harus ada semacam prinsip "Istana saya, aturan saya", namun pada dasarnya saya tidak tahu apa-apa tentang semua masalah hukum.

Pembaruan: Saya mungkin harus menyebutkan penyedia server saya mengirimi saya email tentang temuan SiteAdvisor secara teratur - itulah cara saya mengetahui tentang 'peringkat' mereka dan itulah sebabnya saya kesal.

web-crawler kralyk
sumber

78

Apakah Anda mengatakan bahwa manusia memiliki hak untuk melihat situs web Anda? Jika ya, mengapa mendiskriminasi pelayan robot manusia? Jika tidak, mengapa itu situs web?

jwodder

47

Bagaimana Anda mengetahui bahwa SiteAdvisor menandai situs Anda? Anda tidak melihat situs mereka, bukan ? Jika demikian, apa yang memberi Anda hak?

Joe Sniderman

17

Kebetulan, saya tidak akan menampik laporan SiteAdvisor begitu enteng, secara umum ketika saya melihat laporan serupa mereka sah. Kasus yang paling umum adalah memiliki versi CMS populer yang lebih tua / belum ditonton (WordPress, Joomla, Drupal, ...) dieksploitasi oleh beberapa skrip otomatis untuk menempatkan konten berbahaya ("trampolin" halaman yang digunakan untuk spam / phishing, hosting virus yang terhubung dengan email penipuan, eksploitasi browser, sebut saja); Anda mungkin meng-host hal-hal buruk tanpa menyadarinya. Juga, karena banyak pengguna bergantung pada alat tersebut, Anda biasanya ingin memiliki catatan bersih, karena peringatan tersebut dapat menakuti pengguna.

Matteo Italia

35

Jika Anda ingin sesuatu dikunci, kunci. Anda memasang situs web dan mengonfigurasi server untuk menanggapi permintaan GET. Anda telah mengundang semua orang - secara harfiah, semua orang. Ini bukan hak "tersirat", ini adalah cara kerja server web. Pembatasan, seperti yang disebutkan, robots.txt, atau pembatasan IP, atau konten yang dibatasi untuk pengguna yang masuk.

mfinni

20

@RolazaroAzeveires: Proses otomatis baik-baik saja bukan karena memungkinkan pengunjung manusia menyiratkannya, tetapi karena, kecuali serangan, mereka bertanya dengan baik: "dapatkah saya memiliki file-file ini?" dan Anda telah mengonfigurasi server web Anda untuk merespons: "Tentu saja! Ini dia. Butuh yang lain?" Itu tidak merangkak tanpa izin Anda, itu merangkak dengan izin Anda.

Marcks Thomas

49

Ada preseden hukum untuk ini. Bidang v. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google memenangkan penilaian ringkasan berdasarkan beberapa faktor, terutama bahwa penulis tidak menggunakan file robots.txt dalam metatag di situs webnya, yang akan mencegah Google merayapi dan menyimpan halaman-halaman yang tidak ingin diindeks oleh pemilik situs web.

Hukum pdf

Tidak ada hukum AS yang secara khusus menangani file robots.txt; namun kasus pengadilan lain telah menetapkan beberapa preseden yang pada akhirnya dapat menyebabkan file robots.txt dianggap menghindari langkah-langkah elektronik yang disengaja yang diambil untuk melindungi konten. Dalam SARANA KESEHATAN, INC Vs HARDING, EARLEY, FOLLMER & FRAILEY, et. al, Healthcare Advocates berpendapat bahwa Harding et al pada dasarnya meretas kemampuan Mesin Wayback untuk mendapatkan akses ke file cache halaman yang memiliki versi lebih baru dengan file robots.txt. Sementara Pengacara Kesehatan kehilangan kasus ini, Pengadilan Negeri mencatat bahwa masalahnya bukan bahwa Harding dkk "mengambil kunci," tetapi mereka mendapatkan akses ke file karena masalah server-load dengan Wayback Machine yang memberikan akses ke file dalam cache seharusnya tidak

Putusan Pengadilan pdf

Ini hanya masalah waktu IMHO sampai seseorang mengambil putusan ini dan ternyata itu pada sisinya: Pengadilan menunjukkan bahwa robots.txt adalah kunci untuk mencegah merangkak dan menghindari itu adalah memilih kunci.

Sayangnya, banyak dari tuntutan hukum ini tidak sesederhana "Saya mencoba memberi tahu perayap Anda bahwa itu tidak diizinkan dan perayap Anda mengabaikan pengaturan / perintah itu." Ada sejumlah masalah lain dalam semua kasus ini yang pada akhirnya mempengaruhi hasil lebih dari masalah inti apakah file robots.txt harus dianggap sebagai metode perlindungan elektronik di bawah hukum DCMA AS.

Yang telah dikatakan, ini adalah hukum AS dan seseorang dari Tiongkok dapat melakukan apa yang mereka inginkan - bukan karena masalah hukum, tetapi karena China tidak akan menegakkan perlindungan merek dagang dan hak cipta AS, jadi semoga berhasil mengejar mereka.

Bukan jawaban singkat, tetapi sebenarnya tidak ada jawaban pendek dan sederhana untuk pertanyaan Anda!

jcanker
sumber

1

Ini jawaban yang bagus, terima kasih. Hal yang saya tidak suka tentang robots.txt adalah itu bukan standar aktual (standar Nevermind diharuskan oleh hukum). Perusahaan-perusahaan ini bisa mengabaikannya. Saya tidak suka berada di posisi di mana mereka memberi tahu saya, "Anda harus membuat file robots.txt dan mungkin kami tidak akan menjelajah situs web Anda, tetapi mungkin kami akan merayapi, kami melakukan apa yang kami suka." Akan lebih bagus jika ada standar untuk menentukan ToS situs web dalam metadata situs web.

kralyk

5

@jcanker Kedua kasus itu tentang klaim pelanggaran hak cipta. Dalam perilaku perayap yang men-cache konten, seperti yang dioperasikan oleh Google dan archive.org, sangat masuk akal bahwa masalah hak cipta ikut bermain. Tetapi McAfee SiteAdvisor sebenarnya tidak menyalin dan menyimpan konten (apalagi yang tersedia untuk umum) dari situs web yang diaksesnya, bukan? Meskipun saya bukan pengacara, saya pikir perbedaan ini memberi kami alasan untuk sangat meragukan bahwa kedua kasus tersebut dengan cara apa pun berlaku untuk perilaku sistem seperti SiteAdvisor, terlepas dari apakah itu menghormati robots.txt atau tidak.

Eliah Kagan

12

@kralyk - re "Perusahaan-perusahaan ini hanya bisa mengabaikannya." Baiklah. Begitulah cara kerja internet. Dan bahkan jika itu entah bagaimana lebih mendasar, itu akan sepele, benar-benar sepele, bagi crawler untuk berpura-pura itu adalah manusia yang mengakses halaman web Anda. Anda meminta hal yang mustahil secara teknis . Memang, jika Anda memikirkan apa yang Anda tanyakan, apa yang Anda cari tidak logis, itu tidak ada artinya. Kecuali dalam perbedaan hukum. Satu-satunya perlindungan yang mungkin Anda lakukan adalah (1) menyembunyikan konten penting di balik otentikasi login pengguna, dan (2) perlindungan hukum, seperti yang dibahas dalam jawaban ini.

ToolmakerSteve

@ToolmakerSteve Saya tahu secara teknis tidak mungkin untuk melarang robot sepenuhnya. Ini adalah situasi yang berbeda - saya tidak mencari solusi teknis, saya bertanya apakah itu legal, juga perhatikan bahwa McAffee telah memberi tahu saya bahwa mereka merayapi situs web saya, saya tidak perlu mendeteksinya.

kralyk

Ada juga preseden hukum dengan cara lain: ebay v bidder's edge

John

91

Ya, mereka berhak melakukannya - Anda telah membuat situs web publik, apa yang membuat Anda berpikir tidak?

Anda juga tentu saja memiliki hak untuk menghentikan mereka. Anda dapat meminta mereka untuk tidak merayapi situs web Anda dengan robots.txt atau secara aktif mencegah mereka mengaksesnya dengan sesuatu seperti fail2ban .

Atau, jangan khawatir tentang hal itu dan lanjutkan dengan hidup Anda. Ini tidak menyakiti apa pun dan jelas berada di sisi jinak Internet probing.

Dan
sumber

4

> "Ya, mereka memiliki hak untuk melakukannya - Anda telah membuat situs web publik, apa yang membuat Anda berpikir mereka tidak melakukannya?" Nah, jika sesuatu secara teknis memungkinkan, itu tidak berarti itu legal. Misalnya, ToS YouTube melarang pengunduhan video, jadi, meskipun secara teknis sangat mudah, tetap tidak diizinkan. Saya tidak akan khawatir tentang SiteAdvisor jika bukan karena penyedia saya yang mengirimi saya email tentang situs saya "mungkin mengalami masalah" ...

kralyk

16

@ kralyk - jika Anda tidak ingin publik (termasuk McAfee) melihatnya, jangan taruh di web. Sesederhana itu. ANDA MENGONTROL SITUS WEB ANDA. Tidak ada yang memaksa Anda untuk meletakkannya di sana, dan jika Anda tidak ingin orang melihatnya, maka JANGAN taruh di sana. Jika Anda akan menaruhnya di sana, maka jangan heran bahwa orang (termasuk orang yang ingin menjual barang Anda) melihatnya. Berhentilah mencoba mengubah hasrat Anda menjadi masalah orang lain.

Michael Kohne

9

@kralyk: serius? Anda benar-benar berpikir masalah di sini adalah standar ganda? Tidak ada orang di McAfee yang tahu atau peduli tentang situs web Anda. Mereka juga tidak seharusnya. Tidak masuk akal mengharapkan siapa pun merayapi web untuk membaca ToS semua orang. Itu sebabnya robot.txt diciptakan.

ToolmakerSteve

3

@kralyk Akses ke sumber daya yang dipermasalahkan harus dibuat agar ToS berada di dekat yang berarti. Robot yang merayapi halaman Anda yang tidak dilindungi sama sekali berbeda dari seseorang yang mendaftarkan akun, mengakui ToS, dan kemudian mengumpan kredensial ke robot.

Andrew B

4

@kralyk - TOS macam apa yang Anda miliki di situs yang Anda rasa melanggar McAfee (tidak menghormati)?

Kevin Fegan

11

Apakah perilaku ini etis atau tidak tidak sepenuhnya jelas.

Tindakan merayapi situs publik itu sendiri, tidak etis (kecuali jika Anda melarangnya secara eksplisit menggunakan robots.txt atau langkah-langkah teknologi lainnya, dan mereka menghindarinya).

Apa yang mereka lakukan adalah padanan kasar memanggil Anda, sambil mengumumkan kepada dunia bahwa Anda mungkin tidak aman. Jika itu merusak reputasi Anda dan tidak bisa dibenarkan, itu tidak etis; jika melakukan itu dan satu-satunya resolusi untuk itu melibatkan Anda membayar mereka, itu pemerasan. Tapi, saya tidak berpikir ini yang sedang terjadi.

Saat lain hal ini menjadi tidak etis adalah ketika seseorang menjelajah situs Anda untuk menyesuaikan konten atau data Anda dan kemudian menyatakannya sebagai milik mereka. Tapi, itu juga bukan apa yang sedang terjadi.

Jadi, saya sarankan bahwa perilaku mereka dalam hal ini etis, dan Anda juga bisa mengabaikannya.

Perilaku mereka yang terkait dengan spamming Anda tidak etis jika Anda tidak memiliki hubungan dengan mereka dan tidak meminta email, tetapi saya curiga mereka memiliki berhenti berlangganan yang berfungsi.

Falcon Momot
sumber

1

Saya tidak yakin saya akan menyebut Disallowarahan dalam file robots.txt sebagai "tindakan melarang teknologi". robots.txt bertindak sebagai permintaan sopan santun, dan sementara bot berperilaku baik akan mematuhinya, tidak ada kewajiban dan tidak ada keamanan nyata yang terlibat. Faktanya, bot yang berperilaku buruk mungkin menerima entri di robots.txt sebagai undangan untuk merayapi jalur tertentu ...

CVn

2

@ MichaelKjörling, Hanya setengah yang setuju. Tidak ada keamanan nyata tetapi ada kewajiban. Itu adalah tanda keluar, dan kewajiban Anda adalah untuk keluar karena Anda tidak memiliki izin untuk masuk.

Ben

Itu adalah tanda "jauhi", tanpa kunci. Cobalah itu di rumah Anda dan lihat seberapa besar simpati yang Anda dapatkan setelah pencuri datang menelepon! (Sebenarnya, itu adalah tanda "jauhi" yang secara eksplisit mencantumkan pintu dan jendela yang tidak terkunci yang Anda inginkan agar orang tidak masuk.)

Randy Orrison

2

Pendekatan teknis untuk memblokir orang atau perusahaan tertentu dari mengakses situs web Anda:

Anda dapat memblokir alamat IP tertentu, atau rentang alamat dari mengakses halaman situs Anda. Ini dalam file .htaccess (jika situs Anda berjalan di Apache Web Server).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Mintalah server Anda mencatat alamat IP server tempat ia diakses, dan cari alamat IP tersebut, untuk menemukan yang terkait dengan McAfee. Mungkin mudah diketahui sekarang, jika Anda tidak memiliki pengunjung reguler.

Tentu saja, mereka mungkin mengubah alamat IP di masa depan. Namun, jika Anda mencari alamat IP yang Anda temukan, untuk melihat siapa yang memilikinya, Anda mungkin dapat mempelajari seluruh blok alamat yang dimiliki oleh McAfee, dan memblokir semuanya.

Untuk dasar hukum untuk melakukannya:

"Pemilik situs web dapat secara hukum memblokir beberapa pengguna, aturan pengadilan"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Jika situs web Anda adalah situs pribadi, tidak ada yang akan memperjuangkan hak Anda untuk memblokir beberapa pengguna. Tetapi jika situs web untuk bisnis, ada argumen hukum dan moral di kedua sisi dari diskusi itu. Semakin kecil bisnis Anda, semakin mudah bisnis Anda, semakin mudah. itu harus dilindungi secara hukum - dan semakin sedikit pula orang lain yang cukup peduli untuk mengeluh.)

Anda mungkin juga tertarik dengan "Tolak pengunjung menurut pengarah".

"Jika Anda pernah melihat log Anda dan melihat peningkatan lalu lintas yang mengejutkan, namun tidak ada peningkatan dalam permintaan file sebenarnya mungkin seseorang mencubit konten (seperti file CSS) atau seseorang yang mencoba meretas situs web Anda (ini mungkin berarti mencoba untuk menemukan konten yang bukan untuk umum). "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

ToolmakerSteve
sumber

Apakah perusahaan telah menyiratkan hak untuk merayapi situs web saya?

Jawaban: