Telah menemukan pengumuman dari Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Ini menyatakan:
Untuk rendering dan pengindeksan yang optimal, pedoman baru kami menetapkan bahwa Anda harus mengizinkan Googlebot mengakses file JavaScript, CSS, dan gambar yang digunakan halaman Anda. Ini memberi Anda rendering dan pengindeksan yang optimal untuk situs Anda. Menolak perayapan file Javascript atau CSS di robots.txt situs Anda secara langsung membahayakan seberapa baik algoritma kami membuat dan mengindeks konten Anda dan dapat menghasilkan peringkat yang tidak optimal.
Secara default, file robots.txt Joomla hadir dengan penolakan:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Mohon saran, apakah kami akan menghapus item di bawah ini dari file robots.txt berdasarkan pengumuman Google?
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Apakah ini yang direkomendasikan sesuai pengumuman untuk situs berbasis Joomla?
robots.txt
karena tidak ada orang (bahkan mesin pencari sekarang yang membuat tuntutan Google atas apa yang tidak boleh Anda larang) tetap akan mengikutinya?Jawaban:
Jujur Anda lebih baik menghapus semuanya dari robots.txt Anda. Sejauh yang saya bisa lihat, semua file PHP di Joomla berisi baris
Yang berarti jika Anda memuat file PHP langsung di browser semua yang Anda dapatkan adalah file kosong, yang mesin pencari akan abaikan. (Mereka tidak seharusnya menemukan ini, kecuali jika Anda menghubungkan mereka secara langsung.)
Masalah dengan membiarkan beberapa direktori diblokir adalah bahwa beberapa komponen dan modul menyimpan file CSS / JS mereka di dalam direktori masing-masing dan tidak dalam folder media atau gambar yang disukai.
Jadi tidak ada alasan untuk memblokir file Joomla dari Google.
sumber
Terlepas dari keseluruhan penggunaan / kekurangannya,
robots.txt
dalam situs Joomla yang dikelola dengan baik, dengan ekstensi pihak ketiga yang "baik" - satu-satunya tempat yang harus berisi CSS, JS atau gambar adalah:dan tentu saja sub-direktori mereka .
Jadi, Anda bisa menghapusnya dari
robots.txt
.sumber
Di Joomla 3.3, baris-baris ini telah dihapus dari file robots.txt:
Info lebih lanjut di sini: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
sumber
Jika Anda melihat halaman Anda tanpa kesalahan saat mengambil sebagai Google di WMT, maka Anda mungkin baik-baik saja. Tetapi, di masa depan, Anda dapat meningkatkan beberapa konten di situs web Anda, yang akan menuntut beberapa skrip / css dari beberapa folder yang diblokir. Oleh karena itu, saya pikir Anda mungkin lebih baik dengan memungkinkan mesin pencari untuk menjelajah semua folder yang berisi CSS / JavaScript.
sumber
Versi terbaru Joomla tidak lagi memblokir
/media/
dan/templates/
folder:Tidak semua ekstensi berpegang pada pedoman tempat menempatkan file CSS dan JS dll, jadi upaya yang baik adalah memungkinkan Google untuk mengakses file-file ini di mana pun mereka ditemukan.
Anda dapat mencapai ini dengan memasukkan beberapa baris ke awal
robots.txt
file Anda seperti ini:EDIT:
Terima kasih @ w3dk dan @Stephen Ostermiller atas umpan baliknya! Anda benar. Lebih baik melakukan sesuatu seperti ini:
Sayangnya ini sepertinya tidak berfungsi sebagaimana dimaksud karena aturan yang lebih panjang (lebih spesifik) menggantikan aturan yang lebih pendek dan garis yang boleh diabaikan. Tampaknya tidak ada bedanya apakah garis bolehkan ikuti garis larang atau sebaliknya.
Satu-satunya cara saya bisa mengatasi ini adalah dengan melakukan sesuatu seperti ini yang tampaknya berfungsi ketika saya mengujinya di Alat Webmaster:
EDIT 2 - SOLUSI TERBAIK:
OK, jadi saya melakukan sedikit riset lebih lanjut dan menemukan jawabannya di https://stackoverflow.com/a/30362942/1983389
Tampaknya solusi yang paling benar dan paling didukung di semua web crawler adalah sesuatu seperti berikut (memungkinkan akses ke
*.css
dan*.js
file dalam/bin
,/cache
,/installation
,/language
,/logs
, dan/tmp
folder dan mungkin beberapa folder lainnya masuk akal):sumber
Disallow:
bawahUser-agent: Googlebot
grup, yang akan lebih mudah dibaca.)/logs/
sambil mencegah bot lain melakukannya.