Saya mencari cara untuk mengambil setiap tautan yang telah saya indekskan oleh Google dan mengekspornya ke file CSV. Baru-baru ini saya memiliki lebih banyak halaman yang diindeks oleh Google daripada yang sebenarnya saya miliki dan saya ingin mencari dari mana semua halaman ini berasal tanpa harus melihat setiap halaman hasil pencarian.
8
Jawaban:
Sayangnya tidak ada cara untuk mendapatkan daftar lengkap dari setiap halaman yang diindeks di Google. Bahkan solusi milo5b hanya akan memberi Anda paling banyak 1.000 URL.
Sepertinya Anda memiliki beberapa masalah konten duplikat. Di Alat Webmaster, periksa di Kesehatan> Status Indeks dan itu akan menunjukkan kepada Anda total halaman kumulatif yang diindeks dari waktu ke waktu. Jika grafik membuat lompatan besar pada satu titik, Anda mungkin dapat bekerja jika perubahan spesifik di situs Anda memicu lompatan.
Anda juga dapat mencoba menggunakan Alat Webmaster Bing . Mereka memiliki Index Explorer yang dapat membantu Anda menemukan URL. Laba-laba mesin pencari sangat mirip sehingga jika Google menemukan tautan itu, Bing mungkin juga melakukannya.
Saya pikir Bing memiliki cara untuk mengekspor sebagian besar datanya tetapi saya tidak dapat menemukannya secara sepintas. Ada API, jadi Anda mungkin bisa menggunakannya untuk mengekstrak semuanya.
sumber
Saya akhirnya menelusuri ke sub-folder yang bermasalah melalui pencarian situs: domain.com/foo/bar/ tetapi dalam pencarian saya, saya menemukan metode untuk memasukkan hasil pencarian ke dalam file excel.
Buka spreadsheet Google Documents dan gunakan rumus ini:
Itu hanya akan mendapatkan 100 hasil pertama tetapi Anda dapat menggunakannya lagi untuk mendapatkan 100 berikutnya. Cukup ubah variabel awal:
Ini hanya akan memberikan hingga 1000 hasil, seperti yang disebutkan sebelumnya oleh DisgruntledGoat, tetapi rumusnya dapat diubah untuk memberikan tautan dari sub-direktori tertentu:
sumber
Anda dapat menulis skrip yang mem-parsing SERP Google (misalnya PHP + Curl) dan menyimpan setiap tautan dalam file CSV. Berhati-hatilah agar skrip Anda berperilaku seperti manusia, karena Google dapat mencekal IP Anda dari hasil penelusuran selama beberapa jam jika Anda menyalahgunakan ini.
sumber