Apakah mungkin untuk menemukan semua halaman dan tautan di situs web mana pun? Saya ingin memasukkan URL dan membuat pohon direktori dari semua tautan dari situs itu?
Saya telah melihat HTTrack tetapi itu mengunduh seluruh situs dan saya hanya membutuhkan pohon direktori.
directory
web-crawler
Jonathan Lyon
sumber
sumber
Jawaban:
Periksa pemeriksa tautan —itu akan merayapi situs (sambil mematuhi
robots.txt
) dan menghasilkan laporan. Dari sana, Anda dapat membuat skrip solusi untuk membuat pohon direktori.sumber
robots.txt
file, itu berarti Anda dapat merangkak sesuka hati.Jika Anda memiliki konsol pengembang (JavaScript) di browser Anda, Anda dapat mengetikkan kode ini di:
Dipersingkat:
sumber
$$
operatornya? Atau itu hanya nama fungsi sewenang-wenang, sama sepertin=ABC(''a');
saya tidak mengerti bagaimanaurls
mendapatkan semua elemen bertanda 'a'. Bisakah Anda menjelaskan? Saya berasumsi itu bukan jQuery. Apa fungsi perpustakaan prototipe yang sedang kita bicarakan?$$()
pada dasarnya adalah singkatan daridocument.querySelectorAll()
. Info lebih lanjut di tautan ini: developer.mozilla.org/en-US/docs/Web/API/Document/…Alternatif lain mungkin
Dengan Anda
$$(
bahkan lebih pendeksumber
Jika ini adalah pertanyaan pemrograman, saya sarankan Anda menulis ekspresi reguler Anda sendiri untuk mengurai semua konten yang diambil. Tag target adalah IMG dan A untuk HTML standar. Untuk JAWA,
ini bersama dengan kelas Pattern dan Matcher harus mendeteksi awal dari tag. Tambahkan tag LINK jika Anda juga menginginkan CSS.
Namun, ini tidak semudah yang mungkin Anda pikirkan sebelumnya. Banyak halaman web tidak berformat baik. Mengekstrak semua tautan secara terprogram yang dapat "dikenali" oleh manusia sangatlah sulit jika Anda perlu memperhitungkan semua ekspresi tidak beraturan.
Semoga berhasil!
sumber
coba kode ini ....
sumber