Mengapa Google menghentikan pengindeksan halaman dari sitemap.xml kami?

18

Kami melihat beberapa halaman yang ada di kami sitemap.xmltetapi secara misterius hilang dari indeks pencarian publik Google.

Anda tidak dapat mengunduh /superuser//sitemap.xml - kami melindungi file ini karena ada masalah dengannya di masa lalu - tetapi googlebot bisa. Kami telah memverifikasi melalui Google Webmaster Tools bahwa sitemap.xmlfile tersebut ditarik hari ini dan diberi nilai OK tanpa kesalahan (tanda centang hijau).

teks alternatif

The sitemap.xmlberisi daftar dari 50.000 pertanyaan terakhir di situs kami yang diminta. Misalnya, pertanyaan ini ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... ada di sitemap.xmlsebagai ...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Mencari "Cara melihat ujung rantai panjang tautan simbolik" hanya memberikan satu hasil untuk questionhub.com yang sedang mengikis data kami (masalah yang sama sekali berbeda).

Anda dapat menambah jumlah hitungan pertanyaan dan melakukan pencarian tepat untuk judul pertanyaan dan Anda akan melihat pola ini tetap ada.

Url ini ada di sitemap.xml tetapi tidak muncul di indeks Google - namun muncul di situs yang mengorek data materi iklan kreatif kami. Kenapa bisa begitu?

Michael Pryor
sumber
5
Anda selalu bisa bertanya di forum sentral google webmaster. google.com/support/forum/p/Webmasters?hl=id
Alex Black
Pasti ada yang salah. Pertanyaan ini sudah diindeks di Google, namun pertanyaan terkait pada superuser MASIH tidak muncul dalam indeks.
Michael Pryor
Jeff mungkin berpikir tentang hanya bertanya kepada Matt Cutts. Saya telah melihat mereka berbicara satu sama lain beberapa kali di Twitter. Dia biasanya sangat bersedia membantu.
Virtuosi Media
3
FWIW Kami saat ini melihat beberapa masalah dengan pengindeksan konten baru di beberapa situs. Ada utas di Forum Bantuan kami di google.com/support/forum/p/Webmasters/… tentang hal ini. URL yang Anda sebutkan tampaknya terpengaruh. Saya membayangkan ini akan diselesaikan segera, tetapi tidak memiliki jangka waktu perbaikan yang tersedia. Terima kasih atas kesabaran Anda.
John Mueller
1
Sepertinya ini diselesaikan sekarang :-). Saya mencoba beberapa pertanyaan baru dari situs dan semuanya diindeks. Woot!
John Mueller

Jawaban:

10

Sepertinya Google mengalami beberapa masalah teknis menjelajah minggu ini, yang terdengar sangat seperti apa yang kami alami:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Sepertinya tidak ada yang kebal dari masalah pengindeksan Google yang membuat banyak pemilik situs bingung. Blog dan situs web, besar dan kecil, tidak diindeks secepat biasanya - jika semuanya diindeks sama sekali.

...

John dari Google menjawab utas di forum Webmaster dengan mengatakan:

Untuk memperjelas, masalah dari utas ini, yang telah saya ulas secara terperinci, bukan karena perubahan kebijakan kami atau perubahan dalam algoritma kami; mereka disebabkan oleh masalah teknis di pihak kami yang akan segera diselesaikan sesegera mungkin (meskipun mungkin perlu beberapa hari untuk dapat dilihat untuk semua situs)

Jeff Atwood
sumber
7

Google tidak membuat penawaran atau menjamin bahwa halaman dalam peta situs akan diindeks.

Pengalaman saya adalah bahwa halaman harus ditautkan ke (dari halaman otoritas tertentu) untuk muncul. Apakah halaman / pertanyaan itu ditautkan dengan langsung / tidak langsung dari halaman dengan otoritas tertentu?

Misalnya jika beranda superuser.com (yang mungkin memiliki banyak inlink) yang terhubung langsung ke pertanyaan ini, atau tertaut secara tidak langsung melalui sejumlah halaman lain, maka Anda dapat mengharapkannya diindeks.

Dari google:

Google tidak menjamin bahwa kami akan merayapi atau mengindeks semua URL Anda. Namun, kami menggunakan data di Peta Situs Anda untuk mempelajari tentang struktur situs Anda, yang akan memungkinkan kami untuk meningkatkan jadwal perayap kami dan melakukan pekerjaan yang lebih baik dengan merayapi situs Anda di masa mendatang. Dalam kebanyakan kasus, webmaster akan mendapat manfaat dari pengajuan Peta Situs, dan dalam hal apa pun Anda tidak akan dihukum karenanya.

http://www.google.com/support/webmasters/bin/answer.py?hl=id&answer=156184

Alex Black
sumber
4
Superuser harus memiliki tautan dan PR yang memadai untuk membuat halaman-halaman itu diindeks dengan atau tanpa peta situs. Dan halaman-halaman kecil didaftar sepanjang waktu. Bahkan mereka merupakan mayoritas indeks. Saya curiga ada yang lain penyebabnya.
John Conde
Setuju, situs ini memiliki banyak PR dan inlink. Namun, apakah ada peluang bahwa laman tersebut tidak memiliki tautan? Jika superuser.com (kebetulan) tidak menautkan ke halaman, lalu apa artinya itu bagi Google? katanya halaman itu tidak penting.
Alex Black
2
Halaman itu pasti ditautkan dari halaman depan, dan terus ditautkan oleh dari sejumlah halaman lainnya. Situs SE sangat cross-link berat.
Kevin Montrose
1
pada satu titik kemarin, salah satu hit saya untuk pertanyaan pengujian adalah beranda superuser.com - dengan URL target terlihat di sana, bahkan di cache Google! Namun pertanyaannya sendiri tidak diindeks. Sangat aneh.
Jeff Atwood
2
benar - benar klik pada tab PANAS di halaman rumah, atau tab MINGGUAN atau BULANAN. Di sana ..
Jeff Atwood
3

Saya pikir google mungkin mengalami kesulitan mengindeks halaman web Anda, 50.000 banyak. Jadi saran saya akan memecah peta situs Anda menjadi beberapa bagian seperti itu

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Jika rusak, Anda akan lebih beruntung memiliki indeks 50.000 yang diindeks.

Sitemaps.org menjelaskan masalah ini

Anda dapat memberikan beberapa file peta situs, tetapi setiap file peta situs yang Anda berikan harus tidak lebih dari 50.000 URL dan tidak boleh lebih besar dari 10MB (10.485.760 bytes). Jika Anda mau, Anda dapat mengkompres file peta situs Anda menggunakan gzip untuk mengurangi kebutuhan bandwidth Anda; namun file sitemap yang dulu tidak terkompresi harus tidak lebih dari 10MB. Jika Anda ingin membuat daftar lebih dari 50.000 URL, Anda harus membuat beberapa file peta situs.

Jika Anda memang menyediakan banyak peta situs, maka Anda harus mendaftar setiap file peta situs dalam file indeks peta situs. File indeks peta situs mungkin tidak mencantumkan lebih dari 50.000 Peta Situs dan tidak boleh lebih besar dari 10MB (10.485.760 byte) dan dapat dikompresi. Anda dapat memiliki lebih dari satu file indeks peta situs. Format XML file indeks peta situs sangat mirip dengan format XML file peta situs.

http://sitemaps.org/protocol.php

Sevki
sumber
2
Peta Situs dengan 50.000 halaman sangat umum. Bahkan seseorang baru-baru ini memposting tangkapan layar dari akun webmaster mereka yang menunjukkan Google telah mengindeks hampir semua 50.000 halaman tersebut. Dan saya menduga superuser lebih populer (mis. Memiliki popularitas tautan yang lebih baik) daripada situs lain itu.
John Conde
1
"Anda memiliki lebih dari 50.000 URL untuk dicantumkan. Itu maksimum yang dapat dimasukkan oleh satu Peta Situs." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
1
Jika Anda memiliki peta situs untuk setiap hari, yang tidak pernah berubah setelah hari itu berakhir, sehingga peta situs tidak harus diakses lagi, mereka dapat merayapi tautan yang telah diindeks untuk perubahan, sehingga google tidak harus melanjutkan 50.000 url setiap hari untuk melihat mana yang lama dan mana yang baru.
Sevki
@sevki pertanyaan ke 50.001 yang tertua oleh ACTIVITY DATE (jawaban baru, suntingan, dll. menabrak tanggal ini) tidak akan ada di sitemap. Ingatlah bahwa superuser hanya memiliki total 55 ribu pertanyaan.
Jeff Atwood
@ Jeff tetapi SO.com memiliki 1.014.782 dan 964.782 tidak ada dalam sitemap sehingga google atau bing tidak tahu kapan mereka terakhir dimodifikasi .. bukankah itu meningkatkan perayapan Anda. lagipula saya tidak ingin mengganggu hanya mencoba untuk membantu, saya mengirimi Anda email dengan beberapa rincian lebih lanjut.
Sevki
2

Tampaknya Google menyatakan bahwa 46.514 tautan yang dikirim ada dalam indeks. Mungkinkah itu masalah (saya benci mengatakannya) tetapi peringkat halaman? Situs pengikis mungkin melakukan pekerjaan yang lebih baik, dll, dan berperingkat lebih tinggi. Hanya pemikiran saja.

Situs pencarian ini : superuser.com Cara melihat ujung rantai panjang tautan simbolik juga tampaknya mengambil sitemap.xml Anda dengan benar, meskipun tidak mengembalikan hasil yang diharapkan.

Dustin Senos
sumber
Situs memo tersebut memberikan atribut ke superuser.com sebagai penulis asli (meskipun mereka bisa lebih eksplisit tentang hal itu) sehingga Google harus tahu bahwa mereka adalah penulis asli konten dan memberi mereka prioritas di atas situs memoing.
John Conde
@ John benar, kami memerlukan atribusi dengan tindak lanjut, seperti yang didokumentasikan di blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood
sitemap yang di-cache itu "seperti yang muncul pada 17 Okt 2010 05:40:35 GMT", 4 hari yang lalu pada saat saya menulis ini, jadi tidak banyak. Saya melihat beberapa URL di sitemap.xml yang di-cache dan ada juga sebagai halaman pertanyaan di google.
Jeff Atwood
@john dapatkah Anda memberikan contoh bagaimana mereka memberikan atribusi. Thx
Greg B
@Greg, Lihat saja logo superuser
John Conde
2

Dengan hal semacam ini ada banyak jawaban potensial.

Saya akan mulai dengan menanyakan berapa banyak halaman yang Anda miliki. (Anda mengirimkan 50.000 URL situs cepat: superuser.com menunjukkan 125.000 apakah Anda pikir Anda hanya memiliki 50 ribu URL dan mengirimkan semuanya namun Google menemukan 2-3 salinan dari setiap halaman? Atau mungkin Anda memiliki 1 juta URL dan hanya 12.5 % diindeks) mendapatkan gambaran besar membantu mengarahkan ke mana harus mencari masalah.

Jika tidak ada yang salah dengan langkah pertama, saya akan pindah ke konten, sepertinya QH memiliki lebih banyak konten di halaman mereka dan menautkan banyak "sumber daya" lainnya meskipun fakta bahwa semua konten mereka dihapus, mungkin Google menganggap mereka halaman lebih bermanfaat karena mereka menyediakan lebih banyak sumber daya / informasi kepada pengguna. Jika mereka dianggap otoritas dan semua konten Anda sama dengan mereka, ada kemungkinan Google tidak akan mengindeks Anda meskipun Anda asli.

Jika Anda yakin itu bukan masalah membangun beberapa tautan berkualitas tinggi untuk itu, buat blog pertanyaan ini di beberapa blog karyawan populer atau minta teman ke blog tentang hal itu, mungkin jika Anda memiliki teman SEO yang menjalankan blog populer, mereka akan menulis studi kasus tentang hal itu dll.

Jika Anda mendapatkan banyak tautan kuat dan masih belum diindeks, cari alasannya mungkin akan dikenakan sanksi (dalam kebanyakan kasus ini bukan masalah tetapi tidak ada salahnya untuk memeriksa).

Jika tidak ada yang berhasil maka 9 kali dari 10 itu adalah masalah teknis sederhana yang diabaikan (pengecualian robot atau yang serupa).

Jika Anda masih tidak memiliki jawaban setelah melalui ini, tanyakan kepada Google dan berharap mereka mendapatkan jawaban.

Joshak
sumber
0

Pertanyaannya baru saja ditanyakan kemarin - beri googlebot kesempatan, Anda bukan satu-satunya situs di Internet yang harus dia jelajahi ya tahu :)

Jika pertanyaan biasanya diindeks dalam satu hari atau lebih, dan satu minggu berlalu dan yang satu masih tidak diindeks, maka saya mungkin khawatir. Tapi tentu tidak setelah 1 hari.

Eric Petroelje
sumber
1
Mereka biasanya muncul dalam satu jam. Jadi saya setuju, saya harus memberikan waktu, tetapi relatif terhadap frekuensi yang biasa ... Saya punya.
Michael Pryor
@michael pastikan Anda membandingkan apel dengan apel - Google tampaknya mengindeks stackoverflow.com pada tingkat yang jauh lebih tinggi daripada situs kami yang lain.
Jeff Atwood