Saya sedang mengembangkan versi baru situs kami pada subdomain ( dev.oursite.com
) dan robots.txt dengan Disallow
diganti pada beberapa titik, sehingga situs tersebut diindeks oleh Google dan mesin pencari lainnya. Itu tidak muncul tinggi dalam hasil atau apa pun, tetapi memiliki semua konten duplikat dan saya lebih suka tidak ada di sana.
Subdomain sekarang hilang dan saya memiliki 301 yang mengalihkan setiap halaman dari dev.oursite.com/page-name
ke http://oursite.com/page-name
.
Apakah ada hal lain yang perlu saya lakukan agar situs dev dihapus agar tidak muncul di Google? Apakah akhirnya akan menghilang dengan sendirinya?
Jawaban:
Lihat alat penghapusan URL di Alat Webmaster Google. Saya juga akan 404 halaman alih-alih mengarahkan mereka untuk dihapus lebih cepat, di masa depan di luar robots.txt Anda bisa mampir
rel="canonical"
untuk memastikan Google tahu situs dev hanya salinan dari situs utama dan tidak boleh diindeks.sumber
Saya selalu khawatir tentang situs pengembangan yang diindeks. Saya tidak mempercayai robots.txt atau
meta noindex
, sementara saya menggunakannya, saya juga melindungi situs dengan kata sandi jika tidak merepotkan. Tetapi opsi lain adalah menggunakan .htaccess dan menolak akses ke semua orang kecuali IP di dalam perusahaan Anda dan untuk rekan kerja dan pengembang. Cukup tambahkan kelas C.sumber
Selain jawaban yang benar yang diberikan oleh Joshak, saya ingin memberi Anda tip tentang bagaimana hal ini dapat dicegah.
Apa yang telah saya lakukan untuk mengatasi masalah yang sama persis ini adalah untuk memaksa robot.txt dalam definisi vhost Apache httpd. Dengan cara ini tidak mungkin "disallow" dapat menghilang atau diubah oleh kode apa pun di situs web yang sedang dikembangkan. Definisi vhost saya semuanya terlihat seperti ini:
sumber