Bagaimana cara mengkonfigurasi robots.txt untuk mengizinkan semuanya?

116

Saya robots.txtdi Alat Webmaster Google menunjukkan nilai berikut:

User-agent: *
Allow: /

Apa artinya? Saya tidak memiliki cukup pengetahuan tentang itu, jadi mencari bantuan Anda. Saya ingin mengizinkan semua robot merayapi situs web saya, apakah ini konfigurasi yang benar?

Raajpoot
sumber
Izinkan tidak dipahami oleh semua perayap web, sebagai gantinya gunakan penolakan: (yaitu, tanpa url setelah:). Ini lebih aman (lihat: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Jawaban:

153

File itu akan mengizinkan semua akses crawler

User-agent: *
Allow: /

Ini pada dasarnya memungkinkan semua agen pengguna (*) ke semua bagian situs (/).

Jim
sumber
11
Benar, kecuali Anda perlu meniadakan bagian yang diizinkan. Tidak ada "izinkan" jadi buatlah: "Agen-pengguna: * Larang:" seperti yang ditampilkan di sini: robotstxt.org/robotstxt.html
vsdev
Ada bagian yang diizinkan. Periksa dokumen resmi Google developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp
60

Jika Anda ingin mengizinkan setiap bot merayapi semuanya, ini adalah cara terbaik untuk menentukannya di robots.txt Anda:

User-agent: *
Disallow:

Perhatikan bahwa Disallowfield tersebut memiliki nilai kosong yang artinya sesuai dengan spesifikasinya :

Setiap nilai kosong, menunjukkan bahwa semua URL dapat diambil.


Cara Anda (dengan Allow: /alih - alih Disallow:) berfungsi juga, tetapi Allowbukan bagian dari spesifikasi robots.txt asli , jadi tidak didukung oleh semua bot (meskipun banyak bot populer yang mendukungnya, seperti Googlebot ). Meskipun demikian, bidang yang tidak dikenali harus diabaikan, dan untuk bot yang tidak mengenali Allow, hasilnya akan sama dalam kasus ini: jika tidak ada yang dilarang untuk dirayapi (dengan Disallow), semuanya diizinkan untuk dirayapi.
Namun, secara formal (sesuai spesifikasi asli) ini adalah catatan yang tidak valid, karena setidaknya Disallowdiperlukan satu bidang:

Setidaknya satu bidang Disallow harus ada dalam rekaman.

unor
sumber
17

Saya mengerti bahwa ini adalah pertanyaan yang cukup lama dan memiliki jawaban yang cukup bagus. Tapi, ini dua sen saya demi kelengkapan.

Sesuai dokumentasi resmi , ada empat cara, Anda dapat mengizinkan akses penuh untuk robot untuk mengakses situs Anda.

Bersih:

Tentukan pencocok global dengan segmen larang seperti yang disebutkan oleh @unor. Jadi /robots.txtpenampilan Anda seperti ini.

User-agent: *
Disallow:

Retasan:

Buat /robots.txtfile tanpa konten di dalamnya. Yang akan secara default mengizinkan semua untuk semua jenis Bots.

Saya tidak peduli:

Jangan buat /robots.txtsama sekali. Yang seharusnya menghasilkan hasil yang sama persis dengan dua di atas.

Jelek:

Dari dokumentasi robot untuk tag meta , Anda dapat menggunakan tag meta berikut pada semua halaman Anda di situs Anda untuk memberi Botstahu bahwa halaman ini tidak seharusnya diindeks.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Agar ini diterapkan ke seluruh situs Anda, Anda harus menambahkan tag meta ini untuk semua halaman Anda. Dan tag ini harus ditempatkan secara ketat di bawah HEADtag halaman Anda. Lebih lanjut tentang tag meta ini di sini .

Raja Anbazhagan
sumber
Tidak ada robots.txt dan Wordpress adalah kombinasi yang buruk, karena WordPress menghasilkan robot.txt virtual. Kecuali Anda senang dengan yang dihasilkan WordPress.
Jesper
8

Ini berarti Anda mengizinkan setiap ( *) agen-pengguna / perayap untuk mengakses root ( /) situs Anda. Kamu baik-baik saja.

Jordi
sumber
5
tidak ada bidang "Izinkan", menurut robotstxt.org/robotstxt.html jadi saya akan berhati-hati menggunakannya. Wikipedia menyebutkan "Beberapa crawler utama mendukung Biarkan direktif yang dapat menangkal Larang direktif berikut.": En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Mackaaij