Saya sudah memiliki pertanyaan yang dijawab tentang pengikisan web dengan wget. tetapi ketika saya membaca sedikit lebih banyak, saya menyadari saya mungkin sedang mencari program perayapan web. khususnya bagian tentang perayap web yang bisa mendapatkan data spesifik seperti tautan atau, dalam kasus saya, produk.
semua produk di situs saya memiliki konvensi penamaan berikut, website.com/uniqueAlphaNumericID.html
sejauh yang saya tahu, tidak ada generasi konten dinamis yang digunakan dan hanya satu halaman per satu item dalam format di atas.
haruskah saya hanya memikirkan:
wget website.com | grep * .html
atau haruskah saya melihat ke spider / crawler?
website
wget
web-crawler
pisau tempur
sumber
sumber
Tidak jelas apa pertanyaan Anda. Apa yang sebenarnya ingin Anda lakukan?
Michelle Six
dapatkah saya menggunakan program web-spider sendiri di halaman web, atau apakah istilah ini hanya digunakan untuk mesin pencari itu sendiri yang mendapatkan data dari halaman? dapatkah saya menggunakan program perayap web di mac osx, atau OS lainnya untuk masalah ini dan apa yang akan Anda rekomendasikan? apa yang saya coba lakukan adalah menemukan berbagai cara untuk menarik data dari sebuah situs web
fightermagethief