Haruskah kita memodifikasi Joomla robots.txt setelah pengumuman Google tentang perayapan CSS dan JavaScript?

8

Telah menemukan pengumuman dari Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html

Ini menyatakan:

Untuk rendering dan pengindeksan yang optimal, pedoman baru kami menetapkan bahwa Anda harus mengizinkan Googlebot mengakses file JavaScript, CSS, dan gambar yang digunakan halaman Anda. Ini memberi Anda rendering dan pengindeksan yang optimal untuk situs Anda. Menolak perayapan file Javascript atau CSS di robots.txt situs Anda secara langsung membahayakan seberapa baik algoritma kami membuat dan mengindeks konten Anda dan dapat menghasilkan peringkat yang tidak optimal.

Secara default, file robots.txt Joomla hadir dengan penolakan:

Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Mohon saran, apakah kami akan menghapus item di bawah ini dari file robots.txt berdasarkan pengumuman Google?

Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/

Apakah ini yang direkomendasikan sesuai pengumuman untuk situs berbasis Joomla?

Muntah
sumber
Mengapa tidak menghapus begitu saja robots.txtkarena tidak ada orang (bahkan mesin pencari sekarang yang membuat tuntutan Google atas apa yang tidak boleh Anda larang) tetap akan mengikutinya?
Pertanyaan Overflow
Terkait (bukan duplikat): Robots.txt - CSS allow or disallow
unor

Jawaban:

3

Jujur Anda lebih baik menghapus semuanya dari robots.txt Anda. Sejauh yang saya bisa lihat, semua file PHP di Joomla berisi baris

defined('_JEXEC') or die;

Yang berarti jika Anda memuat file PHP langsung di browser semua yang Anda dapatkan adalah file kosong, yang mesin pencari akan abaikan. (Mereka tidak seharusnya menemukan ini, kecuali jika Anda menghubungkan mereka secara langsung.)

Masalah dengan membiarkan beberapa direktori diblokir adalah bahwa beberapa komponen dan modul menyimpan file CSS / JS mereka di dalam direktori masing-masing dan tidak dalam folder media atau gambar yang disukai.

Jadi tidak ada alasan untuk memblokir file Joomla dari Google.

DisgruntledGoat
sumber
Terima kasih. Namun - saya melihat - ketika mengambil halaman melalui Webmaster - pengambilannya baik - meskipun telah melarang semua folder tersebut. Apakah menghapus disallow akan bermanfaat bagi halaman?
Gag
1
@Gagan Saya tidak yakin tetapi alat pengambilan di Alat Webmaster mungkin mengabaikan robots.txt.
DisgruntledGoat
1
GWMT melakukan keduanya. Ketika Anda mengambil sebagai google, itu akan menunjukkan kepada Anda bagaimana Google melihat situs Anda dan bagaimana pengguna melihat situs Anda. @DisgruntledGoat benar, tidak perlu memblokir apa pun.
Brent Friar
2

Terlepas dari keseluruhan penggunaan / kekurangannya, robots.txtdalam situs Joomla yang dikelola dengan baik, dengan ekstensi pihak ketiga yang "baik" - satu-satunya tempat yang harus berisi CSS, JS atau gambar adalah:

/images
/media
/templates

dan tentu saja sub-direktori mereka .

Jadi, Anda bisa menghapusnya dari robots.txt.

Craig
sumber
1

Jika Anda melihat halaman Anda tanpa kesalahan saat mengambil sebagai Google di WMT, maka Anda mungkin baik-baik saja. Tetapi, di masa depan, Anda dapat meningkatkan beberapa konten di situs web Anda, yang akan menuntut beberapa skrip / css dari beberapa folder yang diblokir. Oleh karena itu, saya pikir Anda mungkin lebih baik dengan memungkinkan mesin pencari untuk menjelajah semua folder yang berisi CSS / JavaScript.

Bojan Miljevic
sumber
1

Versi terbaru Joomla tidak lagi memblokir /media/dan /templates/folder:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Tidak semua ekstensi berpegang pada pedoman tempat menempatkan file CSS dan JS dll, jadi upaya yang baik adalah memungkinkan Google untuk mengakses file-file ini di mana pun mereka ditemukan.

Anda dapat mencapai ini dengan memasukkan beberapa baris ke awal robots.txtfile Anda seperti ini:

#Googlebot
User-agent: Googlebot
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDIT:

Terima kasih @ w3dk dan @Stephen Ostermiller atas umpan baliknya! Anda benar. Lebih baik melakukan sesuatu seperti ini:

User-agent: *
Allow: *.css
Allow: *.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Sayangnya ini sepertinya tidak berfungsi sebagaimana dimaksud karena aturan yang lebih panjang (lebih spesifik) menggantikan aturan yang lebih pendek dan garis yang boleh diabaikan. Tampaknya tidak ada bedanya apakah garis bolehkan ikuti garis larang atau sebaliknya.

Satu-satunya cara saya bisa mengatasi ini adalah dengan melakukan sesuatu seperti ini yang tampaknya berfungsi ketika saya mengujinya di Alat Webmaster:

User-agent: *
Allow: /************************************************************.css
Allow: /************************************************************.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDIT 2 - SOLUSI TERBAIK:

OK, jadi saya melakukan sedikit riset lebih lanjut dan menemukan jawabannya di https://stackoverflow.com/a/30362942/1983389

Tampaknya solusi yang paling benar dan paling didukung di semua web crawler adalah sesuatu seperti berikut (memungkinkan akses ke *.cssdan *.jsfile dalam /bin, /cache, /installation, /language, /logs, dan /tmpfolder dan mungkin beberapa folder lainnya masuk akal):

User-agent: *
Allow: /administrator/*.css
Allow: /administrator/*.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Allow: /cli/*.css
Allow: /cli/*.js
Disallow: /cli/
Allow: /components/*.css
Allow: /components/*.js
Disallow: /components/
Allow: /includes/*.css
Allow: /includes/*.js
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Allow: /layouts/*.css
Allow: /layouts/*.js
Disallow: /layouts/
Allow: /libraries/*.css
Allow: /libraries/*.js
Disallow: /libraries/
Disallow: /logs/
Allow: /modules/*.css
Allow: /modules/*.js
Disallow: /modules/
Allow: /plugins/*.css
Allow: /plugins/*.js
Disallow: /plugins/
Disallow: /tmp/
Neil Robertson
sumber
2
Ini akan memungkinkan Googlebot untuk merayapi semuanya , yang sangat berbeda dari file robots.txt asli - apakah itu maksudnya? (Namun, ini sama dengan hanya termasuk di Disallow:bawah User-agent: Googlebotgrup, yang akan lebih mudah dibaca.)
MrWhite
Ya, tujuannya adalah untuk memungkinkan Google mengakses semua file CSS dan JS di situs web.
Neil Robertson
2
Bukan hanya file CSS dan JS, tetapi semua file di situs web. (?)
MrWhite
1
w3dk benar. Jika Anda menambahkan bagian khusus untuk Googlebot, Anda harus menduplikasi semua aturan yang ada di bagian itu. File robots.txt yang Anda usulkan akan memungkinkan Googlebot untuk menjelajah /logs/sambil mencegah bot lain melakukannya.
Stephen Ostermiller