Bagaimana Google mengenali tanggal publikasi suatu posting

17

Ketika saya mencari sesuatu di Google, saya kadang-kadang melihat tanggal penerbitan pos / artikel di bawahnya. Saya juga telah mencari artikel saya sendiri yang saya miliki di situs bertenaga Wordpress saya, dan Google juga mengakui tanggal penerbitannya.

Ketika saya membuka sumber situs web saya, saya tidak melihat tag khusus atau apa pun yang menunjukkan tanggal publikasi. Itu hanya ditulis dalam div reguler, dengan tidak ada tag khusus yang akan memberitahu SE bahwa ini adalah tanggal penerbitan (saya bisa memiliki tanggal lain dari hal-hal lain di sekitar halaman juga).

Jadi, apakah hardcoded ke Google tempat yang tepat dari tanggal publikasi Wordpress di pohon DOM, atau saya kehilangan sesuatu?

Saya sedang membangun situs web baru, dengan CMS saya sendiri, dan saya mencoba mencari tahu bagaimana menerapkan pengakuan tanggal yang dipublikasikan.

Dapat Poyrazoğlu
sumber
2
Anda pasti kehilangan sesuatu: Anda hanya melihat HTML, tetapi ada juga header HTTP yang mengatakan kapan halaman diubah. Apa yang mereka laporkan untuk tautan tautan artikel Anda? Saya akan menebak bahwa Google menggunakan itu dalam kombinasi dengan catatannya sendiri tentang seberapa banyak halaman telah berubah, tetapi saya tidak punya bukti aktual - karenanya komentar daripada jawaban.
Peter Taylor
ya, milik saya adalah percobaan "kasar" .. Saya akan mencari elemen / header dan sitemap non-HTML seperti yang juga disarankan orang lain
Can Poyrazoğlu
@ Peter Tidak diragukan lagi bahwa tajuk HTTP (terutama tajuk Modifikasi Terakhir) adalah metrik yang digunakan UK. Namun, saya ragu bahwa itu berperan besar dalam menentukan "tanggal publikasi" dari sebuah artikel - setidaknya bukan yang Google tampilkan sebagai tanggal publikasi. (UK lain sepertinya tidak menampilkan 'tanggal publikasi'?) Tanggal artikel yang dipublikasikan mungkin bukan tanggal modifikasi terakhir dari suatu dokumen. Sebagian besar halaman di situs dinamis (bahkan untuk posting wordpress) tampaknya kembali mendekati tanggal / waktu saat ini. IMO header Terakhir-Dimodifikasi terutama digunakan untuk caching.
MrWhite
saya pikir itu ada hubungannya dengan sitemap ..
Can Poyrazoğlu
HTTP terakhir diubah stackoverflow.com/questions/204010/… atau metadata HTML semi-standar: stackoverflow.com/questions/4575967/… adalah kemungkinan lain, tapi saya tidak yakin apakah Google benar-benar menggunakannya.
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

Jawaban:

4

Anda harus melalui sitemap xml atau versi umpan RSS untuk mengindeks data publikasi Anda melalui mesin pencari utama seperti Google, Yahoo, & MSN. Hasilkan sitemap XML untuk situs web Anda dan kirimkan dalam alat master web untuk indeks.

eThan Hunt
sumber
7

Saya hanya punya masalah bahwa semua halaman utama saya ditampilkan diperbarui lebih dari 4 tahun yang lalu, meskipun Google tahu itu tidak benar karena halaman telah diindeks selama itu dan berubah secara substansial dari bulan ke bulan. Setelah benar-benar bingung, kemudian benar-benar kesal, kemudian bingung lagi, akhirnya saya menemukan masalah. Persyaratan hukum kami dilayani di div tersembunyi dengan "Pembaruan terakhir: 30 Oktober 2007" dan div tersebut dimuat di hampir semua halaman kami. (Karena itu muncul pada pendaftaran) Saya telah menghapusnya dan sekarang saya menganggap tanggal akan hilang atau diperbaiki untuk sesuatu yang lebih masuk akal.

Kisah peringatan dan satu lagi bukti bahwa mereka memeriksa semantik situs lebih dari rincian teknis atau riwayat pengindeksan mereka sendiri.

mmdanziger
sumber
Apakah Anda memasukkan tanggal modifikasi terakhir dari halaman Anda di tempat lain di halaman, atau RSS feed, atau XML sitemap?
MrWhite
Saya tidak melakukannya, karena situs tersebut bukan situs berita dan saya lebih suka untuk tidak menekankannya. Idealnya, tidak ada tanggal untuk beranda saya. Juga, saya membayangkan bahwa mereka mungkin mengambil moda terakhir dengan sebutir garam - saya tahu saya akan melakukannya jika saya adalah mereka.
mmdanziger
7

Saya sangat meragukan bahwa tanggal posting atau artikel yang dipublikasikan didasarkan pada <lastmod>entri dalam sitemap XML (seperti yang disarankan orang lain) atau header HTTP yang Terakhir Dimodifikasi dalam hal ini. Peta Situs XML hanya berupa penasehat, bukan otoritatif. Tanggal modifikasi dokumen yang terakhir mungkin tidak sama dengan tanggal penerbitan (asli) dari sebuah artikel. Dan, seperti yang saya sebutkan dalam komentar saya di bagian atas halaman, tanggal modifikasi terakhir dari suatu dokumen mungkin lebih penting untuk caching dan mungkin menentukan tingkat perayapan. Header HTTP Yang Terakhir Dimodifikasi dari laman yang dibuat secara dinamis seringkali sangat dekat dengan tanggal / waktu aktual (seperti untuk blog WordPress).

Umpan RSS / Atom di sisi lain memang mengandung nugget informasi khusus ini. Dan memang, di situs Wordpress yang tidak memasukkan tanggal publikasi dalam konten, tanggal publikasi masih muncul di hasil pencarian Google. Dan sejauh yang saya tahu, ini cocok dengan tanggal di RSS Feed.

EDIT # 1: Namun, umpan RSS tidak harus berisi semua halaman. Dalam sebagian besar kasus, ini seharusnya hanya berisi halaman terbaru atau yang terbaru diperbarui. Tetapi tidak ada alasan bahwa Google harus melupakan apa yang sudah dibaca, dan menyediakan konten halaman itu tidak berubah maka tanggal modifikasi terakhir juga tidak boleh.

Jika tidak ada umpan RSS, saya pikir Google cukup pintar untuk menganalisis konten halaman. Terutama jika kurma ditandai 'semantik' dengan bantuan mikroformats . Sangat layak bahwa Google akan melihat yang berikut sebagai tanggal yang resmi untuk artikel yang terkandung di dalamnya:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google tentu tidak membaca Microformats - hCard, hReview, dll

Hanya untuk menambahkan, saya tidak berpikir Google akan menyatakan tanggal publikasi kecuali ia dapat menemukan sesuatu yang otoritatif yang akan menyarankan ini. Itu tidak akan menyimpulkan 'tanggal publikasi' pada data spekulatif, karena 'tanggal publikasi' yang salah tidak berguna bagi siapa pun dan Google akan mendapatkan banyak manfaat untuk itu!

Dan hanya untuk catatan (jika @Tom menyarankan sebaliknya :) Saya pikir posting / artikel harus memiliki tanggal publikasi yang terlihat jelas. Banyak yang tidak, dan ini bisa membuat frustasi bagi pembaca terutama ketika meneliti masalah teknologi dan Anda menemukan bahwa setelah membaca setengah dari artikel itu sudah ketinggalan zaman!

EDIT # 2: Sejak itu saya mengalami gangguan yang sama yang @mmdanziger jelaskan dalam jawabannya. Di salah satu situs lama saya, saya memiliki teks dari bentuk "Situs Terakhir Diperbarui Minggu, 17 Juni 2012" (tidak ditandai dengan cara khusus) di bagian atas setiap halaman (ditulis ke halaman dengan JavaScript !!). Ini sama tanggal telah dijemput oleh Google dan sekarang muncul bersama beberapa halaman (tetapi tidak semua) yang muncul di SERPs - ini pasti bukan tanggal mempublikasikan halaman. Tampaknya Google hanya menggesek halaman untuk string bentuk "terakhir diperbarui ( datestring )" (setelah memproses JavaScript !!). Situs khusus ini tidak memiliki umpan RSS. Situs ini memang memiliki file Sitemap.xml tetapi tanggalnya berbeda.

Saya perhatikan perilaku serupa di situs lain juga.

TuanWhite
sumber
Bagaimana cara mengenali tanggal yang benar dari ini? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Ini adalah SATU-SATUNYA tempat yang mengacu pada tanggal posting saya yang dipublikasikan, dan Google menemukannya dan ditampilkan dengan benar di hasil pencarian
Can Poyrazoğlu
Adakah sesuatu yang spesifik dalam jangkar yang mengikutinya? Kemudian lagi, mungkin tidak. Apakah Anda juga memiliki umpan RSS (ditautkan dalam tag META dokumen)?
MrWhite
Saya mencari jawaban "bagaimana Google menentukan tanggal?" tetapi perhatikan hal yang sama! Google mencoba menemukan serangkaian waktu di halaman itu sendiri daripada header yang terakhir diubah atau Peta Situs.xml <lastmod>! Terima kasih telah mengkonfirmasi pikiran saya!
evilReiko
5

Saya pikir Google menggunakan Peta Situs dan umpan RSS untuk mengenali tanggal yang dipublikasikan .. Anda dapat menerapkan fitur ini dalam CMS Anda dengan membuat peta situs xml sesuai dengan Standar .

<lastmod>2011-08-18</lastmod>
Vamsi Krishna B
sumber
2

Menurut Jonh Mueller di Google:

Kami menggunakan berbagai sinyal untuk menentukan tanggal mana yang akan ditampilkan, atau apakah masuk akal untuk menunjukkan tanggal sama sekali; itu tidak terikat pada satu atribut spesifik.

John Mueller - Twitter

Namun, saya menemukan kemungkinan besar bahwa Google mencari tanggal di halaman web di tempat-tempat berikut:

  • Secara kasat mata di halaman, menggunakan pembelajaran mesin
  • Data terstruktur Schema.org, terutama jika data tersebut juga dapat ditemukan secara kasat mata di halaman
Maximillian Laumeister
sumber
1

Saya pikir ini dengan cerdas mencari tanggal di halaman dan ketika yakin bahwa itu adalah tanggal yang relevan ia menggunakannya.

Agak sulit kadang-kadang karena saya pikir itu dapat memiliki dampak negatif pada kemampuan klik SERP, saya kira itu dapat memiliki dampak positif sementara jika ini adalah artikel / posting baru-baru ini tetapi saya cukup yakin situs saya akan lebih baik tanpanya (Pencari Google mungkin tidak lebih baik tanpanya!)

Tidak ada opsi untuk mengontrolnya melalui Google, hanya dengan metode Anda sendiri. Anda dapat:

  • Ganti tanggal dengan gambar yang dibuat secara dinamis dalam upaya untuk menghentikan Google menemukannya, tetapi ini dapat menyebabkan masalah lain seperti penyelarasan visual / tampilan font yang konsisten / aksesibilitas dll.
  • Keluarkan semua tanggal dari halaman (ini lagi mungkin membuat frustasi bagi pengunjung / pengguna ketika mereka ingin menemukan usia sumber jika Anda memiliki informasi yang relevan).

Untuk alasan ini saya akan mengabaikannya.

Tom Gullen
sumber
Saya tidak mencoba menghapus tanggal :) Saya mencoba untuk menambahkan fitur tanggal ke situs baru yang saya bangun ..
Can Poyrazoğlu