Bagaimana cara saya mendapatkan daftar semua tautan yang diindeks?

8

Saya mencari cara untuk mengambil setiap tautan yang telah saya indekskan oleh Google dan mengekspornya ke file CSV. Baru-baru ini saya memiliki lebih banyak halaman yang diindeks oleh Google daripada yang sebenarnya saya miliki dan saya ingin mencari dari mana semua halaman ini berasal tanpa harus melihat setiap halaman hasil pencarian.

Lee
sumber
Dari mana Anda mendapatkan jumlah halaman yang diindeks?
MrWhite
Google Webmaster dan situs pencarian: domain.com
Lee
2
Satu-satunya hal yang akan saya katakan adalah bahwa data yang dilaporkan di Alat Webmaster (Kesehatan> Status Indeks> Total Diindeks) akan lebih akurat daripada yang dilaporkan oleh situs: pencarian domain.com. Situs: pencarian selalu menghasilkan angka yang jauh lebih tinggi dalam pengalaman saya, tetapi jika Anda menelusuri SERP, jumlah hasil aktual lebih kecil daripada angka "Tentang hasil NNNN".
MrWhite
Yah halaman itu adalah alasan mengapa saya tertarik pada hal ini sejak awal. Dalam 3 bulan, jumlah halaman yang diindeks telah berubah dari 27.000 menjadi 567.000 dan saya ingin tahu alasannya.
Lee

Jawaban:

6

Sayangnya tidak ada cara untuk mendapatkan daftar lengkap dari setiap halaman yang diindeks di Google. Bahkan solusi milo5b hanya akan memberi Anda paling banyak 1.000 URL.

Sepertinya Anda memiliki beberapa masalah konten duplikat. Di Alat Webmaster, periksa di Kesehatan> Status Indeks dan itu akan menunjukkan kepada Anda total halaman kumulatif yang diindeks dari waktu ke waktu. Jika grafik membuat lompatan besar pada satu titik, Anda mungkin dapat bekerja jika perubahan spesifik di situs Anda memicu lompatan.

Anda juga dapat mencoba menggunakan Alat Webmaster Bing . Mereka memiliki Index Explorer yang dapat membantu Anda menemukan URL. Laba-laba mesin pencari sangat mirip sehingga jika Google menemukan tautan itu, Bing mungkin juga melakukannya.

Saya pikir Bing memiliki cara untuk mengekspor sebagian besar datanya tetapi saya tidak dapat menemukannya secara sepintas. Ada API, jadi Anda mungkin bisa menggunakannya untuk mengekstrak semuanya.

DisgruntledGoat
sumber
Terima kasih atas saran Bing tetapi mereka hanya memiliki 9.000 halaman yang diindeks dan saya cukup yakin itu bukan tautan yang saya butuhkan.
Lee
8

Saya akhirnya menelusuri ke sub-folder yang bermasalah melalui pencarian situs: domain.com/foo/bar/ tetapi dalam pencarian saya, saya menemukan metode untuk memasukkan hasil pencarian ke dalam file excel.

Buka spreadsheet Google Documents dan gunakan rumus ini:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Itu hanya akan mendapatkan 100 hasil pertama tetapi Anda dapat menggunakannya lagi untuk mendapatkan 100 berikutnya. Cukup ubah variabel awal:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Ini hanya akan memberikan hingga 1000 hasil, seperti yang disebutkan sebelumnya oleh DisgruntledGoat, tetapi rumusnya dapat diubah untuk memberikan tautan dari sub-direktori tertentu:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

Lee
sumber
Kiat hebat dengan Google Documents. Hanya bertanya-tanya apa masalah sebenarnya sehubungan dengan halaman diindeks ekstra - apakah itu duplikat konten?
MrWhite
1
Saya melacaknya kembali ke vBulletin, perangkat lunak forum yang kami gunakan. Mereka menambahkan fitur baru yang disebut aliran aktivitas dan ditambahkan ke bagian pengguna. Jadi setiap pengguna tidak hanya memiliki halaman aktivitas mereka sendiri di profil mereka tetapi semua aktivitas setiap teman yang mereka miliki. Di atas Google mengindeks halaman kegiatan kosong karena vBulletin tidak akan mengembalikan 404. Saya akhirnya tidak mengindeks seluruh bagian.
Lee
importXML hanya berfungsi dengan baik dengan Lembar lama yang dapat diaktifkan dengan tautan ini: g.co/oldsheets
i.amniels
2

Anda dapat menulis skrip yang mem-parsing SERP Google (misalnya PHP + Curl) dan menyimpan setiap tautan dalam file CSV. Berhati-hatilah agar skrip Anda berperilaku seperti manusia, karena Google dapat mencekal IP Anda dari hasil penelusuran selama beberapa jam jika Anda menyalahgunakan ini.

milo5b
sumber