Pertanyaan yang diberi tag web-crawlers

10
Plus masuk di depan URL di agen pengguna

Saya menjalankan crawler web kecil dan harus memutuskan agen pengguna apa yang akan digunakan untuk itu. Daftar agen perayap serta Wikipedia menyarankan format berikut: examplebot/1.2 (+http://www.example.com/bot.html) Namun beberapa bot menghilangkan tanda plus di depan URL. Dan saya ingin...

10
Gabungkan agen-pengguna di robots.txt

Bisakah agen pengguna didaftar bersama, diikuti oleh aturan umum mereka seperti di robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma...

10
Hanya izinkan Google dan Bing bot merayapi situs

Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*dan memblokir semua bot lain dari merayapi situs. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay:...

9
Haruskah kita menghentikan skema perayapan AJAX?

Jadi sekarang Google telah menghentikan skema perayapan AJAX . Mereka mengatakan tidak perlu repot mengimplementasikannya di situs web baru, karena itu tidak lagi diperlukan karena Googlebot sekarang tidak memiliki masalah menonton konten dinamis. Haruskah kita segera mempercayai pernyataan ini,...

9
Taktik untuk berurusan dengan robot yang nakal

Saya memiliki situs yang, karena alasan pengaturan, mungkin tidak diindeks atau dicari secara otomatis. Ini berarti bahwa kita harus menjauhkan semua robot dan mencegah mereka dari spidering situs. Jelas kami sudah memiliki file robots.txt yang melarangnya sejak awal. Namun, mengamati file...

9
Migrasi thread disqus. Gotchas?

Saya telah memigrasi situs ke domain baru. Situs itu sendiri cukup mudah (menggunakan Jekyll), dan semuanya telah berjalan dengan baik - kecuali migrasi utas Disqus. Saya sudah sebagian berhasil - beberapa utas telah berhasil bermigrasi, tetapi tidak semua. Saya sudah mencoba panduan migrasi...

8
Tag meta "robot" mana yang mendapat preferensi?

Istri saya bekerja di sebuah sekolah menengah di Jerman. Baru-baru ini saya memperhatikan bahwa sangat sulit untuk menemukan beranda sekolah itu menggunakan Google. Saya melihat kode sumber halaman dan saya yakin saya telah menemukan alasannya: Ada dua <meta name="robots">tag; satu...