Robot yang ditolak oleh domain masih tercantum dalam hasil pencarian

9

Jadi, di semua situs kami yang tidak berhadapan dengan pencarian, kami telah menerapkan file robots.txt (per Bagaimana cara mengecualikan situs web dari hasil pencarian Google real-time?, Atau pertanyaan serupa lainnya).

Namun, jika istilah pencarian cukup spesifik, domain itu sendiri dapat ditemukan melalui hasil. Contoh dari ini dapat ditemukan di sini . Seperti yang dapat Anda lihat dari tautan, domain itu sendiri dapat ditemukan (konten tidak di-cache, tetapi domain terdaftar). Selain itu, melakukan pencarian dengan site:hyundaidigitalmarketing.com3 hasil harus. Memeriksa backlink juga menyediakan beberapa hal, tetapi saya jelas tidak dapat mencegahnya (menghubungkan diizinkan dalam konteks) atau mengontrol bagaimana hal ini ditangani (tidak dapat memberi tahu host untuk menambahkan nofollow, noindex).

Sekarang, saya tahu ini adalah kasus tepi yang parah, namun klien perusahaan saya hanya melakukan ini. Faktanya, domain kami cukup bagus, sehingga bahkan pencarian yang tampaknya sewenang-wenang menghasilkan hasil yang relevan. Sekarang, saya harus menulis laporan tentang bagaimana / mengapa ini terjadi.

Jadi, saya beralih ke jaringan Stack Exchange yang bagus untuk membantu saya memahami apa yang hilang atau memahami apa yang terjadi. Tautan ke artikel industri sangat membantu tetapi, apa pun yang dapat Anda berikan jelas sangat bermanfaat. Saya bermaksud menawarkan hadiah yang terbaik yang saya bisa untuk membuat ini menjadi jawaban untuk beralih di masa depan.

Sunting: Saya telah membuka hadiah untuk pertanyaan ini dengan harapan mendapat lebih banyak tanggapan tentangnya. Saya juga memberikan hasil penelitian saya sendiri di bawah ini.

Kevin Peno
sumber

Jawaban:

5

Saya harus mencari sumber informasi ini tetapi tampaknya robots.txt tidak akan mencegah halaman diindeks. Tetapi tajuk HTTP x-robots-tag tampaknya tidak berfungsi.

Jika Anda menggunakan Apache, Anda dapat memblokir halaman secara massal menggunakan baris ini dalam file .htaccess:

Header set x-robots-tag: noindex

Cobalah itu dan lihat apa yang terjadi.

Edit

(Menemukan sumber . Bukan yang saya ingat tetapi berhasil).

John Conde
sumber
Halo, dan terima kasih atas jawabannya. Bagaimana ini berbeda dari tag meta robot yang sudah diterapkan dalam output html situs yang digunakan sebagai contoh di atas? Sejauh yang saya tahu ini hanya berfungsi sebagai pengganti sehingga Anda tidak perlu meletakkannya di setiap halaman.
Kevin Peno
@ Kevin, Mereka harus sama dalam hal efektivitas. Ini hanya akan lebih mudah dikelola seperti yang Anda katakan.
John Conde
4

Saya pikir Matt Cutts membicarakan hal ini. Jika ingatan saya benar, itu ada hubungannya dengan menautkan. Ini lebih dari itu: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=id

Anda dapat menghapusnya dengan alat penghapusan Google.

Joe
sumber
Anda dapat melihat semuanya dengan: situs: gmpackageguide.com Tidak banyak URL. Saya berasumsi mereka berada di indeks sebelum robot itu dianulir. Saya hanya akan menghapusnya.
Joe
Di masa depan, saya akan menginstruksikan orang-orang desain web untuk selalu memasukkan tidak ada indeks, tidak mengikuti bagian kepala halaman web. Saya menduga CMS yang Anda gunakan bisa melakukan itu.
Joe
@ Jo - setuju, tetapi akan merekomendasikan noindex, followagar semua PageRank didistribusikan dari back-link yang mungkin terjadi.
Mike Hudson
@ Jo & @ Mike, Terima kasih atas informasinya. Namun, ambil situsnya: hyundaidigitalmarketing.com. Saya meluncurkan situs ini sendiri setahun yang lalu. Ini mencakup file robots.txt dan header meta. Namun, karena Anda dapat melihat formulir melakukan pencarian di google dengan site:hyundaidigitalmarketing.comatau untuk persyaratan hyundai digital marketing, domain itu sendiri akan terus muncul sebagai hasil pertama dan terbaik. Saya perlu mencegah ini.
Kevin Peno
Juga, pencarian links:hyundaidigitalmarketing.commenunjukkan tautan balik. Saya jelas tidak bisa mencegah atau mengontrol format backlink DAN itu mungkin valid. Jika menautkan ke situs menyebabkan ini saya perlu memahami bagaimana / mengapa sehingga saya bisa menjelaskan hal ini kepada atasan saya. Saya harap ini menjelaskan pertanyaan saya sedikit lebih baik.
Kevin Peno
3

Berdasarkan penelitian saya pada subjek, saya telah menemukan bahwa tidak ada cara dijamin 100% untuk mencegah pengindeksan dan caching data, tetapi Anda bisa sangat dekat (dengan asumsi Anda ingin berurusan dengan peningkatan lalu lintas bot). Begini cara saya menginterpretasikan informasi.

Orang akan berpikir bahwa file robots.txt digunakan untuk mendefinisikan informasi robot di seluruh situs dan meta tag digunakan untuk detail spesifik halaman. Saya pikir semangat di balik 2 persis seperti ini, tetapi ini tidak terjadi dalam praktiknya.

Jangan membuat file robots.txt

Ini bekerja dengan semua penyedia pencari utama untuk mencegah konten muncul di SERP, tetapi tidak tidak mencegah pengindeksan. Ini juga mencegah bot merayapi halaman Anda sehingga tag meta robot apa pun (lihat di bawah) juga diabaikan. Karena ini, Anda tidak dapat menggunakan 2 bersama-sama dan inilah sebabnya, jika Anda ingin mencegah pengindeksan, Anda tidak boleh menggunakan file robots.txt.

Catatan: Google memang mendukung penggunaan Noindex: /di robots.txt, tetapi tidak berdokumen (siapa yang tahu kapan itu akan rusak) dan tidak diketahui apakah ini bekerja untuk orang lain.

Gunakan header HTTP atau tag META HTML untuk mencegah semuanya

Tidak seperti file robots.txt, tag meta robots (dan HTTP Header) didukung secara luas dan, secara mengejutkan, kaya fitur. Ini dirancang untuk diatur pada setiap halaman, tetapi adopsi X-Robots-Tagheader terbaru membuatnya mudah untuk mengatur situs-lebar. Satu-satunya downside dengan metode ini adalah bahwa bot akan merayapi situs Anda. Ini dapat dibatasi dengan menggunakan nofollow, tetapi tidak semua bot benar-benar menghargai nofollow.

Saya menemukan banyak informasi dalam posting blog yang ketinggalan zaman ini . Rilis aslinya adalah 2007 tetapi, karena banyak informasi tentang itu adalah fitur yang lebih baru sejak itu, tampaknya semakin diperbarui secara berkala.

Singkatnya, Anda harus mengirim tajuk HTTP dari X-Robots-Tag: noindex,nofollow,noodp,noydir. Inilah uraian alasannya:

  • nofollowharus membatasi jumlah halaman yang dirayapi di situs Anda, menjaga lalu lintas bot turun. * noindexMemberitahu mesin untuk tidak mengindeks halaman.
  • Sekarang, Anda mungkin menganggap itu noindexsudah cukup. Namun, saya telah menemukan bahwa bahkan jika Anda mengatakan noindexsitus Anda mungkin diindeks karena situs lain yang terhubung dengannya. Cara terbaik untuk mencegah tautan situs umum dari Y! Direktori ( noydir) dan Direktori Terbuka ( noodp).
  • Menggunakan header HTTP juga menerapkan data robot ke file, gambar, dan file non-HTML lainnya! YAY!

Ini akan bekerja di 99% kasus. Namun perlu diingat bahwa masih mungkin untuk diindeks dalam beberapa kasus oleh beberapa penyedia. Google mengaku sepenuhnya menghormati noindex, tetapi saya curiga.

Akhirnya, jika Anda diindeks, atau telah diindeks, satu-satunya cara untuk mendapatkan informasi Anda di-indeks adalah mengikuti berbagai cara dari masing-masing penyedia untuk meminta situs / url dihapus. Jelas ini berarti Anda mungkin ingin memonitor situs / halaman menggunakan sesuatu seperti Google Alerts (terima kasih @ Jo).

Kevin Peno
sumber
3

Saya pikir masalah dasar Anda adalah tautan balik ke situs karena ini memberikan mesin pencari titik masuk ke situs dan membuat mereka menyadarinya. Jadi, meskipun mereka tidak akan menampilkan deskripsi untuk situs mereka dapat menampilkan URL jika mereka pikir itu yang paling cocok untuk hasilnya.

Baca artikel ini yang ditautkan dari yang @joe diposting: Matt Cutts menjaga google keluar

Bit kuncinya adalah:

Ada alasan yang cukup bagus untuk itu: dulu ketika saya mulai di Google pada tahun 2000, beberapa situs web yang berguna (eBay, New York Times, California DMV) memiliki file robots.txt yang melarang setiap halaman mengambil apa pun. Sekarang saya bertanya kepada Anda, apa yang harus kami kembalikan sebagai hasil pencarian ketika seseorang melakukan query [california dmv]? Kami akan terlihat sangat sedih jika kami tidak mengembalikan www.dmv.ca.gov sebagai hasil pertama. Tapi ingat: kami tidak diizinkan mengambil halaman dari www.dmv.ca.gov pada saat itu. Solusinya adalah dengan menunjukkan tautan yang tidak tergambar ketika kami memiliki tingkat kepercayaan yang tinggi bahwa itu adalah tautan yang benar. Terkadang kami bahkan dapat menarik deskripsi dari Proyek Direktori Terbuka, sehingga kami dapat memberikan banyak info kepada pengguna bahkan tanpa mengambil halaman.

Penelitian yang telah Anda lakukan juga mencakup hal-hal yang tenang dengan baik dan jawaban oleh @ john dan @ joe keduanya relevan. Saya telah menyertakan tautan di bawah ini yang memberikan beberapa panduan lebih lanjut tentang pemblokiran mesin pencari. Satu-satunya cara saya dapat berpikir untuk sepenuhnya memblokir situs adalah dengan menambahkan beberapa bentuk perlindungan kata sandi di depan situs yang perlu diselesaikan sebelum konten ditampilkan.

SEOMoz kiat untuk tidak muncul dalam pencarian

Matthew Brookes
sumber
Terima kasih telah menambah diskusi. Perlindungan kata sandi berfungsi dengan baik untuk mencegah perayapan, tetapi tidak mencegah pengindeksan. Karena robots.txt melakukan pekerjaan yang baik untuk menghentikan hal ini, satu-satunya keuntungan dari proteksi kata sandi adalah hal itu akan mencegah pencuri mata untuk menemukannya. Sayangnya, sebagian besar konten tidak cukup sensitif untuk "dilindungi" dan tentu saja tidak mempermasalahkan masalah kegunaan yang dibuatnya. [lanjutan ...]
Kevin Peno
Satu analogi yang saya temukan paling membantu dalam penelitian saya adalah perbandingan dengan buku telepon. Jika mesin pencari adalah buku telepon, dan Anda meminta untuk tidak dicantumkan, maka Anda dapat meminta untuk tidak dicantumkan, dan mereka harus menghargai itu. Sayangnya, mesin pencari bertindak lebih mirip dengan perusahaan yang menjual kontak perusahaan lain yang pada gilirannya diberikan kepada siapa pun yang bersedia membayar / memintanya.
Kevin Peno
@Kevin saya mengerti apa yang Anda katakan sayangnya saya tidak berpikir itu akan mungkin sepenuhnya dihapus dengan cara mesin pencari bekerja saat ini yang terbaik yang dapat Anda harapkan hanyalah daftar URL dalam hal ini.
Matthew Brookes
Oh, saya mengerti itu sekarang (pasca-penelitian). Juga, tolong jangan mengambil komentar saya untuk jawaban Anda dalam cahaya negatif. Saya menilai penambahan Anda pada topik, saya hanya menjawab untuk menambahkan kontra dalam mengimplementasikan solusi seperti itu, ditambah menambahkan sedikit olok-olok topik saya kira. : P
Kevin Peno