Apakah Pratinjau Google mematuhi Robots.txt?

11

Karena memang terlihat seperti itu. Untuk situs saya, kami melarang direktori gambar dan pratinjau semua gambar yang hilang yang membuat situs terlihat miring.

Apakah ini masalahnya dan apakah ada cara untuk memungkinkan bot pratinjau hanya untuk mengakses gambar menggunakan robots.txt?

EDIT: Sepertinya pratinjau dihasilkan oleh Google Bot normal dan oleh Bot Web on the fly sebagaimana disebutkan (secara singkat) di Webmaster Central Blog .

Dengan menggunakan situs: pencarian dan perangkat lunak pemantauan saya, saya bisa melihat ketika bot mengenai situs saya dan ketika ini terjadi, gambar muncul dengan baik di pratinjau. Jadi tebakan saya adalah bahwa perayap normal mengabaikan gambar per robots.txt, tetapi perayap pratinjau tetap mendapatkan gambar.

Implementasi ini tampaknya agak rapuh karena pilihan saya tampaknya:

  1. izinkan google bot merayapi gambar saya (yang tidak ingin saya lakukan)
  2. gunakan tag nosnippet yang memblokir pratinjau, tetapi juga potongan (yang tidak ingin saya lakukan)
  3. Biarkan pratinjau miring muncul yang dapat berdampak buruk pada klik klik
plntxt
sumber
Jika itu hanya masalah tidak memiliki gambar diindeks, Anda dapat mengizinkan merangkak tetapi melayani gambar dengan header HTTP tag-x-robot-tag dengan "noindex".
John Mueller
@ John Mueller Sepertinya ini jawabannya. Mengapa tidak mempostingnya di bagian jawaban?
plntxt

Jawaban:

3

Saya pikir John Mueller benar dalam komentar.

Jika itu hanya masalah tidak memiliki gambar diindeks, Anda dapat mengizinkan merangkak tetapi melayani gambar dengan header HTTP tag-x-robot-tag dengan "noindex"

Saya tidak tahu bahwa Anda dapat mengizinkan Google untuk merayapi konten tanpa mengindeksnya. Saya menempatkan tekniknya di tempat dan saya hanya menunggu merangkak untuk melihat apakah itu berhasil.

Saya akan menerima ini sebagai jawaban dalam beberapa hari kecuali John ingin menambahkan komentarnya ke bagian jawaban sehingga ia bisa mendapatkan perwakilan.

plntxt
sumber
Maaf soal komentar-jawabnya :). Satu hal yang perlu diingat adalah bahwa proses ini tidak secepat saat ini. Mengubah status pengindeksan gambar umumnya lebih lambat dari pencarian web, dan memperbarui gambar pratinjau juga bisa memakan waktu lebih lama daripada memperbarui konten pencarian web biasa (halaman dalam cache, judul, cuplikan). Dalam prakteknya, saya membayangkan ini adalah sesuatu yang akan memakan waktu beberapa minggu bagi Anda untuk melihat perubahan - jadi bersabarlah :).
John Mueller
Kesabaran adalah kuncinya. Beberapa minggu setelah perubahan, beberapa gambar sekarang terlihat, sementara masih ada yang hilang. Tapi ini tampaknya menjadi solusi untuk masalah saya.
plntxt
2

Karena sebagian besar pratinjau dilakukan oleh perayap bot Google, memblokir perayapan dari beberapa bagian situs Anda akan berdampak pada pratinjau ...

Mengapa Anda tidak ingin mengizinkan bot Google untuk menjelajah gambar Anda?

Pascal Qyy
sumber
2
Kami menghabiskan banyak waktu dan uang untuk berinvestasi dalam fotografi produk dan kami lebih suka untuk menjaga gambar kami dari pencarian gambar karena orang yang menggunakan pencarian gambar biasanya mencari gambar dan tidak mencari untuk membeli produk. Jika gambar kita ada dalam indeks, itu akan membuat lebih mudah bagi pesaing untuk mencurinya.
plntxt
1
Anda dapat mencoba menandai gambar dan / atau steganografi dengan hak cipta di dalam dan / atau menyaring tampilan dengan rujukan ...
Pascal Qyy
1
@G. Qyy Atau saya bisa membayar monyet dalam jumlah tak terbatas untuk memindai gambar yang dilindungi hak cipta.
plntxt
@ Jim: Atau Anda dapat menyimpan gambar-gambar berharga di atas kertas, dan tidak pernah, tidak pernah menempatkannya di internet ... ^^
Pascal Qyy
1
Poin bagus - tidak ada yang dapat sepenuhnya melindungi gambar Anda, tetapi saya benar-benar memilih untuk tidak memilikinya dalam indeks Google. Saya bukan penggemar watermarking, dan cara paling efektif untuk mengurangi gambar kami di tempat lain adalah dengan menjaga mereka dari indeks.
plntxt
2

Berikut ini adalah solusi teknis yang mungkin atau mungkin tidak hanya berlaku untuk situs Anda.

Mungkin (bahkan mungkin) bahwa Google akan keluar dengan cara untuk melakukan ini hanya dengan beberapa petunjuk dalam meta data atau robots.txt, tetapi sampai saat itu ....


Langkah 1.

Buat layanan pengalihan / servlet untuk gambar halaman depan.

Yaitu URL seperti

/frontpageimages/[image name]

yang melakukan pengalihan sisi server ke

/images/[image name]

Langkah 2.

Minta semua tautan gambar di halaman depan Anda (dan hanya halaman depan) ditulis ulang untuk melalui layanan pengalihan dari langkah 1 daripada menghubungkan langsung ke gambar.

Langkah 3.

Pastikan robots.txt memungkinkan googlebot untuk merayapi /frontpageimages/


Ini harus memastikan bahwa Google dapat merayapi gambar apa pun yang dihadapinya di halaman depan Anda sementara meninggalkan gambar di halaman lain sendirian.

Meskipun layanan pengalihan (secara teori) dapat digunakan untuk merayapi semua gambar Anda tanpa secara teknis melanggar robots.txt Anda, itu bukanlah sesuatu yang akan dilakukan oleh robot berperilaku baik (seperti googlebot). Dan robot berperilaku buruk tidak akan khawatir tentang robots.txt.

Keris
sumber
Siapa yang hanya ingin halaman depan mereka menampilkan pratinjau? Saya tahu saya ingin setiap halaman menampilkan pratinjau yang baik. Jika Anda melakukan ini untuk setiap halaman Anda pada dasarnya meniadakan tujuan memblokir gambar di tempat pertama.
John Conde
@ John Kamu benar. Dalam hal ini, Anda ingin Google mengindeks Anda atau tidak.
Kris