Untuk situs web dengan konten dinamis (konten baru terus ditambahkan), haruskah saya hanya memasukkan konten terbaru dalam sitemap atau haruskah saya memasukkan semuanya (dengan indeks sitemap)? Apa praktik terbaik untuk peta situs esp. untuk situs besar?
Juga, adakah di sana untuk membuat google (dan mesin pencari lainnya) hanya merayapi halaman di sitemap?
Terima kasih
Pembaruan:
Juga, ada ide bagaimana stackoverflow menangani ini? Saya ingin tahu tetapi sayangnya (juga dengan penuh pengertian ) mereka memblokir akses ke sitemap mereka.
Jawaban:
Sertakan semua halaman. Tujuan dari sitemap XML adalah untuk memberi tahu mesin pencari tentang semua konten Anda. Bukan hanya barang baru.
Dari situs web sitemaps.org (penekanan pada saya):
Jika Anda memiliki banyak konten, Anda dapat menggunakan beberapa peta situs XML .
Jika Anda memiliki konten yang tidak ingin dirayapi atau diindeks, Anda perlu secara khusus memberi tahu mesin pencari untuk tidak merayapi dan mengindeks halaman-halaman itu. Gunakan file robots.txt untuk memblokir halaman atau direktori mana pun yang Anda tidak ingin dirayapi. Anda juga dapat menggunakan tag meta untuk itu. Tetapi Anda tidak dapat menentukan dalam sitemap XML untuk tidak menjelajah halaman yang tidak terdaftar.
sumber
Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.