Haruskah saya memasukkan semuanya ke dalam sitemap atau hanya konten baru?

13

Untuk situs web dengan konten dinamis (konten baru terus ditambahkan), haruskah saya hanya memasukkan konten terbaru dalam sitemap atau haruskah saya memasukkan semuanya (dengan indeks sitemap)? Apa praktik terbaik untuk peta situs esp. untuk situs besar?

Juga, adakah di sana untuk membuat google (dan mesin pencari lainnya) hanya merayapi halaman di sitemap?

Terima kasih

Pembaruan:
Juga, ada ide bagaimana stackoverflow menangani ini? Saya ingin tahu tetapi sayangnya (juga dengan penuh pengertian ) mereka memblokir akses ke sitemap mereka.

Mee
sumber
1
Seberapa besar situsnya? Ada batasan ukuran untuk robots.txt dan peta situs. Hebatnya, banyak yang melebihi keduanya, itulah sebabnya saya bertanya.
Tim Post
@Tim, itu tidak terlalu besar untuk saat ini (semuanya bisa muat dalam satu peta situs), tapi saya sedang mencoba merencanakan ke depan.
Mee

Jawaban:

13

Sertakan semua halaman. Tujuan dari sitemap XML adalah untuk memberi tahu mesin pencari tentang semua konten Anda. Bukan hanya barang baru.

Dari situs web sitemaps.org (penekanan pada saya):

Peta Situs adalah cara mudah bagi webmaster untuk memberi tahu mesin pencari tentang halaman di situs mereka yang tersedia untuk dirayapi .

Jika Anda memiliki banyak konten, Anda dapat menggunakan beberapa peta situs XML .

Jika Anda memiliki konten yang tidak ingin dirayapi atau diindeks, Anda perlu secara khusus memberi tahu mesin pencari untuk tidak merayapi dan mengindeks halaman-halaman itu. Gunakan file robots.txt untuk memblokir halaman atau direktori mana pun yang Anda tidak ingin dirayapi. Anda juga dapat menggunakan tag meta untuk itu. Tetapi Anda tidak dapat menentukan dalam sitemap XML untuk tidak menjelajah halaman yang tidak terdaftar.

John Conde
sumber
Terima kasih atas jawaban Anda, saya akan memasukkan semuanya ke dalam sitemap.
Mee
Apakah Anda memiliki lib yang dapat menangani 50 + k halaman?
Apakah halaman 50k + itu dalam database?
John Conde
Anda tidak perlu menempatkan setiap halaman situs Anda di peta situs. Peta situs berguna untuk memberi tahu mesin pencari tentang halaman yang tersedia untuk dirayapi. Jika mesin pencari sudah dapat melihat setiap halaman yang dapat dijelajahi, dan Anda tidak menambahkan informasi tentang "modifikasi terakhir", maka tidak ada alasan untuk memilikinya.
Django Reinhardt
1
Jawaban ini tampaknya agak bertentangan dengan webmasters.stackexchange.com/a/5151/30596 . Mengutip @John Mueller dari Google,Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.
pengguna