Saya robots.txt
di Alat Webmaster Google menunjukkan nilai berikut:
User-agent: *
Allow: /
Apa artinya? Saya tidak memiliki cukup pengetahuan tentang itu, jadi mencari bantuan Anda. Saya ingin mengizinkan semua robot merayapi situs web saya, apakah ini konfigurasi yang benar?
robots.txt
Raajpoot
sumber
sumber
Jawaban:
File itu akan mengizinkan semua akses crawler
Ini pada dasarnya memungkinkan semua agen pengguna (*) ke semua bagian situs (/).
sumber
Jika Anda ingin mengizinkan setiap bot merayapi semuanya, ini adalah cara terbaik untuk menentukannya di robots.txt Anda:
Perhatikan bahwa
Disallow
field tersebut memiliki nilai kosong yang artinya sesuai dengan spesifikasinya :Cara Anda (dengan
Allow: /
alih - alihDisallow:
) berfungsi juga, tetapiAllow
bukan bagian dari spesifikasi robots.txt asli , jadi tidak didukung oleh semua bot (meskipun banyak bot populer yang mendukungnya, seperti Googlebot ). Meskipun demikian, bidang yang tidak dikenali harus diabaikan, dan untuk bot yang tidak mengenaliAllow
, hasilnya akan sama dalam kasus ini: jika tidak ada yang dilarang untuk dirayapi (denganDisallow
), semuanya diizinkan untuk dirayapi.Namun, secara formal (sesuai spesifikasi asli) ini adalah catatan yang tidak valid, karena setidaknya
Disallow
diperlukan satu bidang:sumber
Saya mengerti bahwa ini adalah pertanyaan yang cukup lama dan memiliki jawaban yang cukup bagus. Tapi, ini dua sen saya demi kelengkapan.
Sesuai dokumentasi resmi , ada empat cara, Anda dapat mengizinkan akses penuh untuk robot untuk mengakses situs Anda.
Bersih:
Tentukan pencocok global dengan segmen larang seperti yang disebutkan oleh @unor. Jadi
/robots.txt
penampilan Anda seperti ini.Retasan:
Buat
/robots.txt
file tanpa konten di dalamnya. Yang akan secara default mengizinkan semua untuk semua jenisBots
.Saya tidak peduli:
Jangan buat
/robots.txt
sama sekali. Yang seharusnya menghasilkan hasil yang sama persis dengan dua di atas.Jelek:
Dari dokumentasi robot untuk tag meta , Anda dapat menggunakan tag meta berikut pada semua halaman Anda di situs Anda untuk memberi
Bots
tahu bahwa halaman ini tidak seharusnya diindeks.Agar ini diterapkan ke seluruh situs Anda, Anda harus menambahkan tag meta ini untuk semua halaman Anda. Dan tag ini harus ditempatkan secara ketat di bawah
HEAD
tag halaman Anda. Lebih lanjut tentang tag meta ini di sini .sumber
Ini berarti Anda mengizinkan setiap (
*
) agen-pengguna / perayap untuk mengakses root (/
) situs Anda. Kamu baik-baik saja.sumber