Sebagai seorang webmaster yang bertanggung jawab atas situs kecil yang memiliki forum, saya secara teratur menerima keluhan dari pengguna bahwa mesin pencari internal dan pencarian eksternal (seperti ketika menggunakan Google) benar-benar tercemar oleh tanda tangan pengguna saya (mereka menggunakan lama tanda tangan dan itu adalah bagian dari pengalaman forum karena tanda tangan masuk akal di forum saya).
Jadi pada dasarnya saya melihat dua opsi seperti sekarang:
Rendering tanda tangan sebagai gambar dan ketika pengguna mengklik "gambar tanda tangan" itu akan dibawa ke halaman yang berisi tanda tangan asli (dengan tautan di tanda tangan dll.) Dan halaman itu ditetapkan sebagai tidak dapat dijelajahi dengan pencarian spider mesin). Ini akan memakan beberapa bandwidth dan perlu beberapa pekerjaan (karena saya membutuhkan renderer HTML yang menghasilkan gambar dll.) Tapi jelas itu akan menyelesaikan masalah (ada gotcha kecil di mana tanda tangan tidak akan menghormati skema font / warna dari pengguna tetapi pengguna saya sangat kreatif dengan tanda tangan mereka, menggunakan font khusus / warna / ukuran dll. jadi tidak banyak masalah).
Menandai setiap bagian dari halaman web yang berisi tanda tangan sebagai tidak dapat dirayapi.
Namun saya tidak yakin tentang nanti: apakah ini sesuatu yang bisa dilakukan? Bisakah Anda menandai bagian tertentu dari suatu halaman web sebagai tidak dapat dirayapi?
sumber
Solusi lain adalah dengan membungkus sig dalam rentang atau div dengan style yang diatur ke
display:none
dan kemudian menggunakan Javascript untuk mengambilnya sehingga teks ditampilkan untuk browser dengan Javascript aktif. Mesin pencari tahu itu tidak akan ditampilkan jadi jangan indeks itu.Ini sedikit HTML, CSS dan javascript harus melakukannya:
HTML:
CSS:
javascript:
Anda harus menyertakan perpustakaan jquery .
sumber
Saya memiliki masalah yang sama, saya menyelesaikannya dengan css tetapi dapat dilakukan dengan javascript dan jquery juga.
1 - Saya membuat kelas yang akan saya panggil "
disallowed-for-crawlers
" dan menempatkan kelas itu dalam segala hal yang saya tidak ingin bot Google lihat, atau letakkan di dalam rentang dengan kelas itu.2 - Di CSS utama halaman saya akan memiliki sesuatu seperti
3- Buat file CSS yang disebut disallow.css dan tambahkan itu ke robots.txt agar tidak boleh dirayapi, jadi crawler tidak akan mengakses file itu, tetapi tambahkan itu sebagai referensi ke halaman Anda setelah css utama.
4- Dalam
disallow.css
saya menempatkan kode:Anda dapat bermain dengan javascript atau css. Saya hanya mengambil keuntungan dari kelas larang dan css. :) semoga membantu seseorang.
sumber
Salah satu cara untuk melakukan ini adalah dengan menggunakan gambar teks daripada teks biasa.
Ada kemungkinan bahwa Google pada akhirnya akan cukup pintar untuk membaca teks dari gambar, jadi itu mungkin tidak sepenuhnya bukti di masa depan, tetapi harus bekerja dengan baik setidaknya untuk sementara waktu dari sekarang.
Ada banyak kelemahan dari pendekatan ini. Jika seseorang tunanetra, itu buruk. Jika Anda ingin konten Anda beradaptasi dengan perangkat seluler dibandingkan komputer desktop, itu buruk. (dan seterusnya)
Tetapi ini adalah metode yang saat ini (agak) berfungsi.
sumber
Ini mudah.
Sebelum Anda melayani halaman Anda, Anda perlu tahu apakah itu untuk bot, komputer atau telepon. Anda kemudian perlu mengatur konten yang sesuai. Ini adalah praktik standar di zaman sekarang ini dan fungsionalitas inti beberapa CMS.
Ada banyak solusi pada SE untuk melakukan pengalihan berdasarkan USER AGEN yang dapat dimasukkan ke dalam htaccess Anda. Jika ini sesuai dengan perangkat lunak forum Anda, maka Anda dapat menjalankan kode yang berbeda dari DB yang sama untuk memberikan apa yang dibutuhkan Google tanpa sekam dan hiasan.
Atau Anda dapat meletakkan sedikit baris dalam kode PHP Anda yang melakukan 'jika USER AGENT == Googlebot maka jangan tampilkan tanda tangan'.
Jika Anda benar-benar tidak dapat melakukannya maka Anda bisa mendapatkan mod_proxy untuk melayani bot dan menggunakannya untuk menghapus apa pun yang dihasilkan kode php Anda yang tidak perlu dilihat oleh bot.
Secara teknis Google tidak menyetujui mesin pencari mereka ditampilkan halaman yang berbeda dengan apa yang dilihat pengunjung situs normal, namun, sampai saat ini, mereka belum mengambil BBC dan yang lain yang menyediakan konten khusus browser / IP / pengunjung dari hasil mesin pencari mereka . Mereka juga memiliki sarana terbatas untuk melihat apakah bot mereka telah 'ditipu'.
Solusi alternatif menyembunyikan konten dengan CSS agar dapat diaktifkan kembali oleh sebuah skrip juga sedikit area abu-abu. Menurut pedoman Alat Webmaster mereka sendiri 20/6/11 ini bukan ide yang baik:
http://www.google.com/support/webmasters/bin/answer.py?answer=66353
Itu mungkin bukan tablet yang dilempar batu, tetapi itu up to date dan oleh Google.
Trik sembunyikan konten tidak akan berfungsi dengan minoritas orang yang tidak memiliki javascript, ini mungkin bukan masalah besar, namun, menunggu dokumen dimuat dan kemudian menunjukkan tanda tangan tidak akan menjadi pengalaman menonton yang memuaskan karena Anda akan pikir halaman telah dimuat, maka itu akan melompat ketika tanda tangan tersembunyi muncul untuk kemudian mendorong konten ke bawah halaman. Jenis ini memuat halaman dapat menjengkelkan jika Anda memiliki net-top low-end tetapi mungkin tidak terlihat jika Anda memiliki mesin pengembang cepat pada koneksi internet cepat.
sumber
Tidak, tidak ada cara untuk mencegah robot merayapi bagian halaman. Seluruh halaman atau tidak sama sekali.
Cuplikan dalam hasil pencarian Google biasanya diambil dari deskripsi meta pada halaman. Jadi, Anda dapat membuat Google menampilkan bagian tertentu dari halaman dengan meletakkannya di tag deskripsi meta. Dengan konten yang dibuat pengguna, sulit untuk mendapatkan cuplikan yang bagus, tetapi mengambil kiriman pertama dari utas mungkin akan berhasil.
Satu-satunya cara lain yang bisa saya pikirkan adalah menggunakan Javascript. Sesuatu seperti paulmorriss disarankan mungkin berfungsi, tapi saya pikir mesin pencari masih akan mengindeks konten jika ada dalam HTML. Anda dapat menghapusnya dari HTML, menyimpannya dalam string Javascript, lalu menambahkannya kembali pada pemuatan halaman. Ini jadi agak rumit.
Akhirnya, satu hal yang perlu diingat: jika Google menunjukkan tanda tangan pengguna di snippet mereka, itu telah memutuskan bahwa itu adalah bagian yang paling relevan dengan permintaan pengguna.
sumber
Anda bisa meletakkan halaman dalam PHP jika dengan "lain" yang mengarah ke captcha yang memberikan kunci untuk bagian if.
Saya tidak terlalu peduli karena jika kredensial pengguna tidak cocok pada halaman saya, mereka mendapatkan halaman kosong atau dikirim ke halaman login.
$key
harus berupa hash hari ini atau sesuatu yang berubah sehingga tidak cukup untuk menambahkan nilai ke sesi.Tulis di komentar jika Anda ingin saya menambahkan contoh captcha karena saya tidak memilikinya sekarang.
sumber
Rupanya, <! - googleoff: all -> dan <! - googleon: all -> lakukan apa yang Anda inginkan.
Baca selengkapnya https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html#1076243
https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/
sumber