Bagaimana HTTP 418 diperlakukan oleh Google dan orang lain karena itu bukan kesalahan "nyata"?

8

Saya bertanya-tanya apakah Anda tahu bagaimana Google dan mesin pencari lainnya memperlakukan situs web dengan kode status HTTP 418 I'm a teapot.

Menurut artikel Wikipedia ini , ini dapat digunakan sebagai kode kesalahan klien (4xx). Saya ingin menggunakan kode kesalahan ini untuk situs web easter egg, yang seharusnya, bagaimanapun, ditemukan oleh mesin pencari.

Menurut posting blog berusia 4 tahun ini , status 418 akan diabaikan oleh Google. Apakah Anda memiliki informasi terbaru tentang topik ini? Bagaimana reaksi mesin pencari lainnya pada status 418 (terutama karena itu adalah kode 4xx).

ssc-hrep3
sumber

Jawaban:

9

Jika Anda menggunakan alat "Ambil sebagai Google" di Google Search Console pada halaman yang mengembalikan status "418 I'm a Teapot" maka itu hanya melaporkan "Kesalahan" dan pengindeksan tidak dapat diminta untuk halaman ini.

Pada tangkapan layar di bawah, "Kesalahan" yang dilingkari adalah hasil dari meminta halaman yang mengembalikan status 418. Tidak ada informasi lebih lanjut tersedia pada tahap ini.

Cuplikan layar Ambil sebagai alat Google yang menunjukkan kesalahan untuk 418 halaman

Menurut log akses saya, Googlebot dan Search Console telah mengunjungi halaman ini, tetapi belum muncul dalam indeks.

Hanya untuk memperjelas, ini adalah halaman baru, yang sebelumnya tidak diindeks. Ini ditautkan dari halaman yang diindeks, yang juga telah dikirim kembali (bersama dengan "halaman yang ditautkan") untuk pengindeksan - terlihat pada tangkapan layar di atas. Saya juga telah mengirimkan peta situs XML yang berisi halaman ini (meskipun jumlah "Indeks" belum dilaporkan - LIHAT UPDATE DI BAWAH ). Sejujurnya, saya tidak memiliki banyak harapan - saya akan terkejut jika itu diindeks. Bukan hanya karena itu kode 4xx, tetapi karena itu bukan kode keberhasilan 2xx.

Biasanya, Anda dapat melakukan tes "Ambil sebagai Google" dan kemudian meminta halaman diindeks. Ini biasanya sangat cepat ("instan") untuk satu halaman - tetapi opsi ini tidak tersedia di halaman di atas.

Menurut posting blog berusia 4 tahun ini, status 418 akan diabaikan oleh Google.

Dengan "diabaikan", mereka berarti diperlakukan sebagai 200 status OK. (Yang tidak benar-benar sama dengan "diabaikan" dalam buku saya, kecuali jika benar-benar diabaikan dan Google tidak melakukan "apa-apa"?) "Masalah" dengan posting blog itu, adalah bahwa mereka sedang menguji halaman yang sudah diindeks. Mengembalikan status 4xx tidak akan membuat halaman turun dari indeks, setidaknya tidak untuk waktu yang cukup lama (tergantung pada tingkat perayapan), meskipun mereka dilaporkan menunggu "beberapa minggu". Mereka juga tidak menyebutkan kesalahan perayapan yang dilaporkan di Alat Webmaster Google (karena diubah menjadi Google Search Console).

itu bukan kesalahan "nyata"

Atau itu? Ini mungkin telah diterapkan sebagai "lelucon" di awal, namun, itu bisa dibilang menunjukkan "kesalahan". Saya pikir akan lebih kontradiktif untuk kode 4xx untuk tidak diperlakukan sebagai "kesalahan". Dan itu masih "saat ini". Asli RFC 2324 dari tahun 1998 yang didefinisikan kode status ini bahkan diperbarui pada tahun 2014 dengan RFC 7168 .

Sebagian besar alat akan melihat status 418 sebagai kesalahan. Atau hanya melihat 200 sebagai kesuksesan. "Apache log viewer" dan "Screaming Frog SEO Spider" tentu melihat kode 418 sebagai kesalahan.

Beberapa server web dilaporkan menerapkan kode status 418:

Stack Exchange bahkan memanfaatkan kode status HTTP ini ketika mendeteksi pelanggaran CSRF:

UPDATE 2017-03-31 (2+ minggu kemudian): Halaman yang mengembalikan 418 kode status HTTP tidak diindeks oleh Google. Laporan XML sitemap di GSC sekarang menunjukkan bahwa hanya satu dari dua URL yang dikirimkan dalam sitemap diindeks (satu URL mengembalikan 200 dan diindeks, yang lain mengembalikan 418 dan tidak diindeks).

Secara kebetulan, GSC membutuhkan waktu hampir 2 minggu untuk melaporkan status indeks URL dalam peta situs, tetapi ini tidak berkaitan dengan kapan halaman sebenarnya diindeks. Misalnya, satu halaman sudah diindeks pada saat sitemap dikirimkan, namun, melihat laporan sitemap saja sepertinya halaman itu hanya diindeks 13 hari setelah sitemap dikirimkan.

URL yang mengembalikan 418 sekarang dilaporkan sebagai "Kesalahan Perayapan" di bawah Crawl> Crawl Errors dan 418 dinyatakan sebagai kode respons. Menurut laporan, ini "terdeteksi" pada 2017-03-16 (hari berikutnya setelah mengirimkan permintaan indeks di atas), namun, beberapa saat sebelum ini dilaporkan di GSC.

TuanWhite
sumber
1
Siapa yang bisa memperbaiki ini? Tidak ada Bersulang!!
closetnoc
3
Selain 200 status, Google tahu cara menangani kode redirect (301, 302, 303, 307, 308). Selain kode-kode khusus itu, saya membayangkan Google memperlakukan hampir semua yang lain sebagai "kesalahan".
Stephen Ostermiller
1
Pembaruan: Halaman yang mengembalikan 418 tidak diindeks dan Google sekarang secara eksplisit melaporkan ini sebagai kesalahan perayapan. Saya telah memperbarui jawaban saya.
MrWhite