Saya memiliki sub-direktori yang ingin saya sembunyikan dari crawler web mesin pencari.
Salah satu cara untuk melakukan ini adalah dengan menggunakan robots.txt
di direktori root server (cara standar). Namun, siapa pun yang mengetahui URL situs web dan memiliki pengetahuan web dasar dapat mengakses konten robots.txt dan dapat melihat direktori yang tidak diizinkan.
Saya berpikir cara untuk menghindari ini, tetapi saya tidak yakin apakah akan berhasil.
Biarkan X
menjadi nama sub-direktori yang ingin saya kecualikan. Salah satu cara untuk menghentikan Web crawler mengindeks X
direktori dan pada saat yang sama untuk membuat lebih sulit bagi seseorang untuk mengidentifikasi X
direktori dari root robots.txt
, adalah untuk menambahkan robots.txt
dalam X
direktori bukan pada direktori root.
Jika saya mengikuti solusi ini, saya memiliki pertanyaan berikut:
- Akankah Perayap Web menemukan
robots.txt
di dalam sub-direktori? (mengingat itu,robots.txt
sudah ada dan di direktori root juga) Jika
robots.txt
ada diX
sub-direktori, maka apakah saya harus menggunakan jalur relatif atau absolut ?:User-agent: * Disallow: /X/
atau
User-agent: * Disallow: /
sumber
Jawaban:
Tidak, perayap web tidak akan membaca atau mematuhi file robots.txt dalam subdirektori. Seperti yang dijelaskan di situs robotstxt.org :
atau di halaman bantuan Google ( penekanan saya):
Bagaimanapun, menggunakan robots.txt untuk menyembunyikan halaman sensitif dari hasil pencarian adalah ide yang buruk, karena mesin pencari dapat mengindeks halaman yang tidak diizinkan dalam robots.txt jika halaman lain terhubung dengan mereka. Atau, seperti yang dijelaskan pada halaman bantuan Google yang ditautkan di atas:
Jadi, apa yang harus Anda lakukan?
Anda dapat membiarkan mesin pencari merayapi halaman (jika mereka menemukannya), tetapi menyertakan tag meta robot dengan konten
noindex,nofollow
. Ini akan memberi tahu mesin pencari untuk tidak mengindeks halaman-halaman itu bahkan jika mereka menemukan tautan ke sana, dan tidak mengikuti tautan lebih lanjut dari halaman-halaman itu. (Tentu saja, ini hanya akan berfungsi untuk halaman web HTML.)Untuk sumber daya non-HTML, Anda dapat mengkonfigurasi server web Anda (misalnya menggunakan
.htaccess
file) untuk mengirim header HTTP X-Robots-Tag dengan konten yang sama.Anda dapat mengatur otentikasi kata sandi untuk melindungi halaman sensitif. Selain melindungi halaman dari pengunjung manusia yang tidak sah, itu juga akan secara efektif menjauhkan crawler web.
sumber
Anda
robots.txt
harus berada di direktori root dan tidak boleh memiliki nama lain. Menurut spesifikasi standar :sumber
/robots.txt
adalah standar, jadi bagaimana mesin pencari bahkan tahu di mana mencarinya?Anda BISA benar-benar menggunakan robots.txt di sub-direktori. Inilah cara kami memperlakukan subdomain bahasa kami. Kami menggunakan 301 redirect dari /robots.txt ke /lang/robots.txt (per sub domain) dan sedang diambil dengan benar.
Ini juga mengambil struktur folder sebagai root yang benar, ketika menggunakan garis miring sederhana. misalnya. larang: /
diperlakukan sebagai melarang semua dan bukan hanya subdirektori saat ini, file {redirected} robots.txt berada.
Tetapi sekali lagi, kami mengarahkan ulang dengan 301 dan memilikinya, jadi tanpa 301, saya ragu itu akan pernah ditemukan ...
sumber