Robots.txt: apakah saya harus melarang halaman yang tidak ditautkan ke mana pun?

12

Ada beberapa halaman di situs web saya yang saya ingin agar pengguna dapat mengunjungi hanya jika saya memberinya URL.

Jika saya melarang satu halaman robots.txt, mereka akan terlihat oleh siapa saja yang melihatnya.

Pertanyaan saya adalah: jika saya tidak menautkannya dari mana saja, atau setidaknya dari halaman yang diindeks, apakah mereka masih dapat dijangkau oleh crawler dengan cara tertentu?

martjno
sumber

Jawaban:

11

Anda tidak ingin halaman ditampilkan di SERP sama sekali ...

Jangan larang di robots.txt. Tambahkan header meta noindex (atau header HTTP X-Robots-Tag) ke halaman Anda.

Seperti yang disarankan j0k, halaman Anda dapat ditemukan entah bagaimana. Laporan statistik, daftar direktori, dll ...

Penolakan dalam robots.txt mencegah laman dirayapi, tetapi masih bisa diindeks dan dapat muncul sebagai tautan khusus URL di SERPs. Sesuatu seperti:

Tautan URL saja di Google SERPs

Tag meta noindex mencegah halaman agar tidak muncul sama sekali di SERP - tetapi Google harus dapat merayapi halaman untuk melihat tag meta noindex - sehingga tidak dapat dianulir dalam robots.txt!

Jika ada sesuatu pada halaman yang tidak boleh tersedia untuk umum maka halaman tersebut harus berada di belakang semacam otentikasi.

TuanWhite
sumber
Satu hal yang perlu diingat adalah jika ini benar-benar sesuatu yang rahasia, maka "menyembunyikannya" dengan URL adalah praktik yang buruk terlepas dari metode yang Anda pilih. Menggunakan otentikasi yang tepat sangat penting dalam kasus seperti itu.
John Mueller
1
Selain itu, tombol media sosial (Suka / Bagikan / + 1 / berbagai bookmark) juga mengambil konten dan dapat menampilkan URL, judul, dan cuplikan secara publik, bahkan jika URL memiliki noindex di atasnya (atau tidak diizinkan oleh robot .txt). Satu-satunya cara untuk mencegahnya adalah dengan menggunakan otentikasi.
John Mueller
2

Yah saya pikir Anda memiliki perayap yang baik yang membaca robots.txt dan mengikuti arahan. Dan satu lagi yang tidak mengikuti arahan.

Dan bagaimana Anda berencana untuk memberikan url ini? Melalui email, menggunakan Facebook atau Twitter? Semua layanan ini merayapi informasi yang Anda kirim. Email parse Gmail yang Anda terima untuk menyediakan iklan. Jadi, url Anda entah bagaimana akan dirayapi.

Beberapa orang menggunakan Google Toolbar (atau apa pun toolbar lain dari mesin pencari). Ada opsi (dicentang secara default jika saya ingat betul) yang memungkinkan bilah alat mengirim semua url yang Anda kunjungi ke Google. Ini adalah cara lain bagi Google untuk melihat web tersembunyi. Jadi, bahkan jika Anda mengatakan kepada orang tersebut untuk tidak membagikan url, secara implisit ia akan (berkat bilah alat).

Saya pikir kita dapat menemukan banyak kemungkinan lain.

Jadi, Anda dapat menambahkannya ke robots.txt tetapi juga memberikan meta tambahan seperti noindex, nofollow, dll.

edit:

Saran w3d tentang robots.txt menurut saya bagus. Jadi jangan menambahkannya ke robots.txt dan berikan tag meta propre.

j0k
sumber
Saya menautkan mereka melalui email. Ya, saya berencana untuk memberikan meta yang tepat. Jadi saran Anda adalah menambahkannya ke robot atau tidak? Terima kasih
martjno
Saya akan merekomendasikan untuk menambahkannya ke robots.txt. Tetapi saran w3d mengubah pikiran saya. Jangan menambahkannya tetapi berikan tag meta yang tepat.
j0k
0

Selain komentar di atas, saya akan memuji otentikasi HTACCESS sebagai minimum juga - dengan cara itu Anda dapat memberikan individu kombinasi nama pengguna / kata sandi selama durasi hak mereka untuk melihat halaman

Jika ada sesuatu dengan masalah privasi maka Anda perlu mempertimbangkan skrip kontrol masuk yang tepat.

Halaman yang tidak dilindungi (tidak peduli seberapa tersembunyi Anda pikir itu mungkin) akan membuatnya menjadi liar.

Andrew
sumber