Untuk mencegah file PDF Anda (atau file non HTML) dicantumkan dalam hasil pencarian, satu-satunya cara adalah dengan menggunakan X-Robots-Tag
header respons HTTP , misalnya:
X-Robots-Tag: noindex
Anda dapat melakukan ini dengan menambahkan potongan berikut ke root .htaccess file situs atau file httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Perhatikan bahwa agar cara di atas berfungsi, Anda harus dapat mengubah header HTTP file yang dimaksud. Dengan demikian, Anda mungkin tidak dapat melakukan ini, misalnya, pada Halaman GitHub .
Juga mencatat bahwa robots.txt tidak tidak mencegah halaman Anda dari yang tercantum dalam hasil pencarian.
Apa yang dilakukannya adalah menghentikan bot dari merayapi halaman Anda, tetapi jika pihak ketiga menautkan ke file PDF Anda dari situs web mereka , halaman Anda akan tetap terdaftar.
Jika Anda menghentikan bot dari merayapi halaman Anda menggunakan robots.txt , itu tidak akan memiliki kesempatan untuk melihat X-Robots-Tag: noindex
tag respons. Karenanya, jangan pernah melarang halaman dalam robots.txt jika Anda menggunakan X-Robots-Tag
header. Info lebih lanjut dapat ditemukan di Google Developers: Robots Meta Tag .
Files
arahan yang diaktifkan regex , Anda harus mempertimbangkan untuk menggunakannya sebagaiFilesMatch
gantinya, seperti yang disarankan di sini stackoverflow.com/q/14792381/1262357Ada beberapa cara untuk melakukan ini (menggabungkannya jelas merupakan cara yang pasti untuk mencapai ini):
1) Gunakan robots.txt untuk memblokir file dari crawler mesin pencari:
2) Gunakan
rel="nofollow"
pada tautan ke PDF itu3) Gunakan
x-robots-tag: noindex
header HTTP untuk mencegah crawler mengindeksnya. Tempatkan kode ini di file .htaccess Anda :sumber
x-robots-tag
danrobots.txt
pada saat yang sama bukanlah ide yang baik dan dapat menyebabkan konten diindeks. Jika Anda menggunakan keduanyarobots.txt
danx-robots-tag: noindex
, crawler tidak akan pernah merangkak atau melihatx-robots-tag
karena itu pertama kali menghormatirobots.txt
.robots.txt
tidak mencegah sumber daya diindeks, hanya dari dirayapi, jadi solusi terbaik adalah dengan menggunakanx-robots-tag
tajuk, namun memungkinkan mesin pencari untuk merayapi dan menemukan tajuk itu dengan meninggalkan Andarobots.txt
sendiri.Anda dapat menggunakan file robots.txt . Anda dapat membaca lebih lanjut di sini .
sumber
Tidak yakin apakah kusen ini mungkin membawa nilai bagi siapa pun, tetapi kami baru-baru ini menghadapi masalah bahwa kotak GSA di tempat kami tidak mau mengindeks file PDF.
Dukungan Google bekerja dengan masalah ini dan jawabannya adalah terkait dengan fakta bahwa dokumen PDF ini memiliki set properti kustom (File -> Document Properties -> Custom (tab))
yang mencegahnya diindeks dengan benar oleh GSA.
Jika Anda memiliki akses ke dokumen dan dapat memodifikasi propertinya, ini mungkin berfungsi ... dengan disewakan untuk GSA.
sumber
Jika Anda menemukan contoh pengembangan bertenaga muncul di hasil pencarian Google, ada cara cepat dan mudah untuk mencegah mesin pencari dari merayapi situs Anda. Tambahkan baris berikut ke blok lokasi file konfigurasi virtualhost Anda untuk blok yang Anda inginkan untuk mencegah perayapan.
sumber
Anda dapat menggunakan file robots.txt. Mesin pencari yang menghormati file itu tidak akan mengindeks PDF. Cukup gunakan perintah untuk melarang pengindeksan file dan tentukan folder atau file PDF mana yang Anda tidak ingin indeks mesin pencari diindeks.
sumber