Kami kesulitan membuat Google untuk mengindeks file PDF di situs kami. Ada sekitar 50 PDF dan kisaran ukuran untuk 20 KB hingga sedikit di bawah dua MB. Mereka tidak dilindungi, dapat dibaca secara anonim, dan di dalam PDF Reader, Anda dapat mencari dokumen.
Mereka terdaftar di SiteMap.xml. Saya bahkan dapat melihat log IIS dan melihat Googlebot membaca file PDF, tetapi, kecuali lima, mereka tidak pernah dimasukkan dalam hasil pencarian.
Jika saya melakukan filetye: pdf, hanya lima PDF muncul. Jika saya mencari teks yang saya tahu ada di dalam PDF, PDF tidak akan pernah muncul (kecuali lima yang diindeks).
Adakah yang tahu mengapa lebih dari 45+ dokumen PDF tidak dimasukkan dalam indeks, meskipun mereka ada di sitemap dan Googlebot membacanya?
sumber
Jawaban:
apakah semua pdf terletak di tempat yang sama? Saya pernah punya masalah bahwa salah satu lokasi pdf saya ada di dalam folder yang dikecualikan oleh robots.txt. Kirim sitemap Anda langsung ke situs-situs web google-webmaster dan Anda mungkin mendapatkan informasi berharga tentang mengapa pdf tidak muncul. dalam kasus saya google mengatakan 'hei, 54 dokumen pdf ini ada di sitemap Anda tetapi karena pembatasan robots.txt, kami tidak dapat mengindeksnya'. jadi itu cukup membantu. tetapi apa kata komentator, perlu waktu sampai informasi ini muncul.
Alat Webmaster Google: https://www.google.com/webmasters/tools
sumber
Mungkin ada jeda yang cukup lama antara google pada awalnya membaca konten Anda dan itu muncul dalam indeks. Kami baru-baru ini meluncurkan kembali sebuah situs, mengirimkan peta situs ke google pada saat peluncuran, dan butuh sekitar 3 minggu bagi halaman baru untuk mulai muncul dalam hasil pencarian.
Berapa lama Anda mengirimkan PDF ini melalui peta situs Anda?
Kedengarannya seperti PDF Anda sedang diindeks, tetapi butuh waktu. Menganggap bahwa tidak ada perbedaan dalam cara PDF yang tidak diindeks telah dihasilkan, maka saya menduga hanya perlu waktu beberapa saat untuk memperbarui.
Dengan sedikit bersinggungan, satu alat yang berguna yang saya rekomendasikan untuk mendaftar adalah Google Webmaster - ini menunjukkan kepada Anda tingkat perayapan, masalah dengan situs Anda, peta situs, dan pengindeksan dalam satu hari atau lebih dari Googlebot yang mengenai situs Anda. Ini bisa menghemat sedikit waktu Anda melalui log IIS Anda.
sumber
Apakah file PDF Anda OCR dipindai sehingga teks dapat dipilih dan dicari? Atau apakah file PDF dipindai tanpa OCR, dalam hal ini teks akan disimpan sebagai gambar besar? Jika PDF adalah semua gambar, saya pikir Google belum dapat mengindeksnya (belum). Atau apakah Google sudah menemukan halaman Anda sekarang?
sumber
Anda dapat secara manual mengirimkannya ke Google , ini sesekali mempercepat proses.
sumber