Topik ini menarik minat saya karena ukuran Wikipedia. Mungkin mudah untuk membuat beberapa crons untuk memperbarui peta situs secara berkala di situs kecil, tetapi bagaimana dengan yang besar? Begitu:
Bagaimana Wikipedia menghasilkan Peta Situsnya?
Saya dihadapkan dengan tugas untuk membuat peta situs untuk situs web kami beberapa waktu yang lalu. Meskipun bukan ukuran Wikipedia, itu masih sekitar seratus ribu halaman, dan sekitar 5% dari mereka diubah, ditambahkan atau dihapus setiap hari.
Karena menempatkan semua referensi halaman dalam satu file akan membuatnya terlalu besar, saya harus membaginya menjadi beberapa bagian. Indeks peta situs menunjuk ke halaman aspx dengan string kueri untuk salah satu dari 17 bagian yang berbeda. Bergantung pada string kueri, halaman mengembalikan xml referensi beberapa ribu halaman, berdasarkan objek yang ada dalam database.
Jadi, peta situs tidak dibuat secara berkala, melainkan dibuat dengan cepat saat seseorang memintanya. Karena kami sudah memiliki sistem untuk caching pencarian basis data, ini tentu saja digunakan untuk mengambil data untuk peta situs juga.
sumber
Walaupun kode generasi sitemap ada di master mediaWikiWiki dan tentunya akan menjadi pilihan yang dipilih untuk menghasilkan sitemap, saya tidak melihat bukti bahwa Wikipedia benar-benar telah dihidupkan. File robots.txt tidak mengarah ke peta situs mana pun.
Lebih jauh, setiap skrip pemeliharaan yang dijalankan pada proyek-proyek Wikimedia dikendalikan oleh boneka dan tidak ada instance dari generateSitemap.php dalam repositori boneka . Akhirnya, tidak ada sitemap di dump untuk wiki Wikimedia juga, sementara ada " abstrak untuk Yahoo ".
Bagaimanapun, Wikipedia menjalankan cache Squid di depan server aplikasi mereka. Mereka dapat mengontrol seberapa sering peta situs mereka diperbarui dengan menyesuaikan waktu kedaluwarsa untuk halaman tersebut.
Selain itu, apa pun yang dilakukan Wikipedia untuk pengindeksan bukan model yang baik untuk wiki Anda, karena Google memiliki kontak / kesepakatan / penanganan Wikipedia khusus, lihat contoh terbaru .
sumber
Saya tidak positif, tetapi saya pikir mereka menggunakan ekstensi Google Sitemap untuk MediaWiki. Ini didukung oleh halaman Wikipedia di Peta Situs .
sumber