Situs pengembang diindeks oleh Google

8

Saya sedang mengembangkan versi baru situs kami pada subdomain ( dev.oursite.com) dan robots.txt dengan Disallowdiganti pada beberapa titik, sehingga situs tersebut diindeks oleh Google dan mesin pencari lainnya. Itu tidak muncul tinggi dalam hasil atau apa pun, tetapi memiliki semua konten duplikat dan saya lebih suka tidak ada di sana.

Subdomain sekarang hilang dan saya memiliki 301 yang mengalihkan setiap halaman dari dev.oursite.com/page-nameke http://oursite.com/page-name.

Apakah ada hal lain yang perlu saya lakukan agar situs dev dihapus agar tidak muncul di Google? Apakah akhirnya akan menghilang dengan sendirinya?

Kyle
sumber
4
Google memiliki halaman faq yang bermanfaat untuk ini: support.google.com/webmasters/bin/…
chrisjlee

Jawaban:

7

Lihat alat penghapusan URL di Alat Webmaster Google. Saya juga akan 404 halaman alih-alih mengarahkan mereka untuk dihapus lebih cepat, di masa depan di luar robots.txt Anda bisa mampir rel="canonical"untuk memastikan Google tahu situs dev hanya salinan dari situs utama dan tidak boleh diindeks.

Joshak
sumber
3

Saya selalu khawatir tentang situs pengembangan yang diindeks. Saya tidak mempercayai robots.txt atau meta noindex, sementara saya menggunakannya, saya juga melindungi situs dengan kata sandi jika tidak merepotkan. Tetapi opsi lain adalah menggunakan .htaccess dan menolak akses ke semua orang kecuali IP di dalam perusahaan Anda dan untuk rekan kerja dan pengembang. Cukup tambahkan kelas C.

Anagio
sumber
1
Ini cara terbaik. 403 setiap orang kecuali serangkaian alamat atau blok alamat. Seluruh dunia hilang dan hanya mereka yang perlu melihatnya yang bisa. Setelah fakta untuk pertanyaan ini, tetapi baik untuk mengetahui masa depan. Anda mungkin memerlukan situs pengembang yang dapat diakses secara pribadi bahkan setelah peluncuran untuk uji coba peningkatan, pemrograman khusus dari pengembang pihak ketiga, dll.
Fiasco Labs
1

Selain jawaban yang benar yang diberikan oleh Joshak, saya ingin memberi Anda tip tentang bagaimana hal ini dapat dicegah.

Apa yang telah saya lakukan untuk mengatasi masalah yang sama persis ini adalah untuk memaksa robot.txt dalam definisi vhost Apache httpd. Dengan cara ini tidak mungkin "disallow" dapat menghilang atau diubah oleh kode apa pun di situs web yang sedang dikembangkan. Definisi vhost saya semuanya terlihat seperti ini:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Niels Basjes
sumber