Jika saya tidak ingin mengatur perilaku khusus, apakah boleh jika saya tidak repot-repot memiliki file robots.txt?

29

Jika saya tidak ingin mengatur perilaku khusus, apakah boleh jika saya tidak repot-repot memiliki file robots.txt?

Atau dapatkah kekurangan satu itu berbahaya?

Dan Dumitru
sumber

Jawaban:

30

Kekurangan file robots.txt tidak akan berbahaya. Dari situs web robotstxt.org :

Untuk memungkinkan semua robot menyelesaikan akses

Agen-pengguna: *
Larang:

(atau cukup buat file "/robots.txt" kosong, atau jangan gunakan sama sekali)

Namun, bahkan jika Anda tidak menentukan apa pun di file robots.txt Anda, ini adalah cara yang baik untuk memberi tahu mesin pencari tentang lokasi XML Sitemap Anda . Anda dapat melakukan ini dengan menambahkan baris di bagian atas file robots.txt Anda yang terlihat seperti:

Sitemap: http://www.example.com/sitemap-host1.xml

Anda juga harus menyadari bahwa tidak memilikinya akan membuat banyak 404 entri di log web Anda.

JasonBirch
sumber
1 - ringkasan yang baik, meskipun aku benar-benar menekankan apa Kinopiko telah benar menekankan sudah : hanya membuat yang paling dasar atau bahkan satu kosong untuk menghindari 404s dan (tergantung pada situs Anda 404 halaman handling) berpotensi beberapa lalu lintas / bandwidth , karena mesin pencari akan menerapkan kontrol cache HTTP yang tepat untuk melewati pengunduhan file lagi jika tidak berubah, apakah itu kosong atau tidak.
Steffen Opel
Ditandai sebagai wiki, harap edit sesuai keinginan Anda.
JasonBirch
21

Jika Anda tidak memiliki "robots.txt" log kesalahan Anda akan mendapatkan banyak 404 pada file, yang bisa menjadi semacam gangguan, mirip dengan jika Anda tidak memiliki favicon.


sumber
1
titik yang sangat baik ..
Jeff Atwood
1
+1 - Saya ingin menambahkan bahwa Anda tidak hanya menyelamatkan diri dari file log yang lebih besar dan berisik, tetapi dapat (tergantung pada situs Anda penanganan halaman 404) menghindari potensi lalu lintas / bandwidth yang cukup besar juga karena sebagian besar halaman 404 menjadi lebih besar dari robots.txtfile sederhana , yang juga akan diunduh lebih jarang karena mesin pencari menerapkan kontrol cache HTTP yang tepat .
Steffen Opel
6

Saya pikir itu harus baik-baik saja, jika tidak petak besar web tidak dapat diindeks oleh laba-laba web.

Tidak robots.txtsama dengan "memungkinkan pengindeksan oleh semua orang" robots.txthampir secara definisi.

Jeff Atwood
sumber
2

Kurangnya file robots.txt menyerahkannya ke perayap untuk memutuskan apa yang bisa dan tidak bisa dilakukan. Karena hanya butuh beberapa detik untuk menghindari segala jenis ambiguitas, mengapa tidak membuat satu yang memungkinkan semua agen untuk mengakses semuanya?

Pos Tim
sumber
0

Nah, karena robots.txtberisi alamat sitemap Anda , tidak memilikinya berpotensi membahayakan.

Thomas Bonini
sumber
peta situs hanya membantu untuk beberapa jenis situs web tertentu, IMO
Jeff Atwood
Saya juga melihat crawler (google khususnya) mencari /sitemap.xml atau /sitemap.gz dengan tidak adanya robots.txt
Pos Tim
Anda tidak perlu memiliki sitemap di robots.txt Anda, Anda tetap bisa mengirimkannya ke Google / Yahoo / Bing. Jelas bukan "berpotensi berbahaya".
DisgruntledGoat
0

Bergantung pada konten Anda, seharusnya tidak ada masalah dengan tidak memiliki file robot selama Anda ingin setiap halaman di situs Anda diindeks oleh mesin pencari.

seanl
sumber