Robots.txt - CSS membolehkan atau melarang

12

Apakah CSS dan templat diizinkan di robots.txt ?

Haruskah itu menyebabkan masalah?

Di Joomla, CSS dan templat tidak diizinkan di robots.txt . Tolong bantu saya menemukan solusi untuk menolak atau tidak melarang robot untuk CSS, templat, dll. Untuk situs web saya yang akan datang.

Manju George
sumber
Saya tidak berpikir Joomla memblokir file-file ini secara default - jika itu yang Anda maksudkan?
MrWhite

Jawaban:

23

Google baru-baru ini memperbarui pedoman mereka untuk secara resmi menyatakan bahwa Anda tidak boleh memblokir akses ke file CSS atau JS di robots.txt . Ini memastikan bahwa ketika Google merayapi situs, ia dapat merendernya persis seperti yang dilakukan peramban.

Jika Anda memblokir file CSS atau JS, itu bisa membahayakan seberapa baik kinerja situs web Anda di peringkat.

Info lebih lanjut di sini: Memperbarui Pedoman Webmaster teknis kami dan di sini: Pedoman Webmaster

Karena ini adalah rekomendasi baru-baru ini, banyak situs web dan CMS (seperti Joomla) akan sering memiliki file seperti itu diblokir di robots.txt . Alasan di balik ini biasanya karena mesin pencari tidak perlu merayapi atau mengindeks file-file ini, jadi untuk menghentikan file dan direktori yang tidak perlu agar tidak diindeks dan untuk menyimpan 'anggaran perayapan', ini sering diblokir dalam robots.txt .

Maks
sumber
2
Google sebenarnya telah mengatakan untuk waktu yang cukup lama bahwa Anda tidak boleh memblokir JS dan CSS (video Matt Cutts dari Maret 2012) karena itu dapat membahayakan kemampuan G untuk menjelajah situs Anda, hanya saja mereka telah membuatnya "lebih resmi" baru-baru ini.
MrWhite
2
Disarankan untuk tidak memblokir CSS dan JS selama lebih dari satu dekade. Saya tahu bahwa rendering oleh mesin pencari tampaknya baru, tetapi tidak dan beberapa bentuk rendering termasuk JS sederhana telah ada untuk waktu yang sangat lama sekarang.
closetnoc
1
Catatan tambahan (agak terkait karena sering digunakan dengan JS) - Sehubungan dengan pengontrol yang membuat rute dapat diakses melalui tema / tampilan / JSON / URi - Anda harus memblokirnya atau Anda mungkin menghadapi area tanpa tema yang diindeks alih-alih menggunakan halaman menggunakan kata tersebut aspek data. Ini adalah area "tampilan" yang valid untuk diblokir, terutama hal-hal yang digunakan JS seperti JSON. Seringkali G akan menjalankan JS, melihat tautan JSON, dan mengunjunginya. Menyebabkan kesalahan atau jika tema keluar, setengah dibangun indeks. Itu kan baru cacing-cacing, tapi sadar saja.
dhaupin
1
Saya merasa terdorong untuk menyatakan ketidaksetujuan saya yang kuat dengan sikap kultus kargo yang harus dilakukan oleh Google. Google juga mengatakan situs Anda akan peringkat lebih tinggi jika Anda mengizinkan mereka untuk merayapi gambar, menggunakan HTTPS, dll. Dengan mematuhi semua yang dikatakan Google, Anda hanya memberi mereka lebih banyak kekuatan untuk membuat permintaan yang lebih besar. Pada akhirnya, apakah Anda membangun situs web Anda untuk manusia atau robot?
Pertanyaan Overflow
1
Kira itu tergantung pada seberapa banyak Anda mengandalkan peringkat yang baik di Google? Meskipun seperti kebanyakan hal, hanya indikator kecil di sejumlah besar faktor yang mereka miliki. Seperti yang Anda sebutkan, mereka baru-baru ini mengatakan HTTPs adalah faktor peringkat kecil, namun saya belum mengubah 100 situs yang saya kerjakan menjadi HTTPs, dan peringkat mereka baik-baik saja.
Maks
3

Strategi untuk Anda robots.txt harus selalu dijawab dengan pertanyaan: yang bagian dari web saya tidak harus dijelajahi oleh robot dan bagian mana mungkin dijelajahi oleh robot.

Robot menerapkan logika mereka sendiri dan memiliki banyak tujuan (tidak hanya Google memiliki perayap ...) jadi jika Anda mengasumsikan bahwa robot mendapatkan entah bagaimana "terganggu" oleh file CSS dan JS, Anda membuka kotak hitam robot dan berasumsi apa yang saat ini implementasi dan saat maksud dari robot ini. Ini bukan strategi jangka panjang yang bermanfaat.

Alih-alih berpikir dalam domain robot cobalah berpikir dalam domain konten web Anda.

Saya ingin menunjukkan bahwa file robots.txt bukan mekanisme keamanan.

saintlama
sumber
1

Template digunakan oleh aplikasi blogging atau perangkat lunak manajemen konten (CMS) dan tidak boleh diakses secara eksternal di mana karena CSS dibaca oleh browser dan mesin pencari dan harus dibaca. Karena itu, saya tidak akan memblokir salah satu tapi saya juga tidak akan mengubah apa pun yang oleh CMS. Mesin pencari dan bot tidak peduli tentang template Anda. Hanya memblokir akses ke situs Anda dengan URL / URI yang Anda tidak ingin diindeks atau dibaca tetapi jangan menganggap robots.txt sebagai alat keamanan. Itu tidak dirancang untuk itu.

closetnoc
sumber