Saya memiliki situs di server yang pada dasarnya adalah sekelompok halaman HTML, gambar dan suara.
Saya telah kehilangan kata sandi saya ke server itu dan saya perlu mengambil semua yang disimpan di sana. Saya dapat pergi halaman demi halaman dan menyimpan semuanya tetapi situs ini memiliki lebih dari 100 halaman.
Saya menggunakan OSX. Saya sudah mencoba menggunakan wget
tetapi saya pikir server memblokir itu.
Apakah ada alternatif yang bisa saya gunakan untuk mengambil konten itu?
Jawaban:
Jika server memblokir wget, kemungkinan besar melakukannya berdasarkan bidang "User-agent:" pada header http, karena itulah satu-satunya cara untuk mengetahuinya sejak awal. Bisa juga memblokir IP Anda, dalam hal ini menggunakan perangkat lunak yang berbeda tidak akan membantu, atau skema yang mengidentifikasi otomatisasi berdasarkan seberapa cepat seperangkat permintaan (karena orang sungguhan tidak menelusuri 100 halaman dalam 3,2 detik) . Saya belum pernah mendengar ada yang melakukan itu, tetapi itu mungkin.
Saya juga belum pernah mendengar cara untuk memperlambat wget, tetapi ada cara untuk menipu bidang pengguna-agen:
Akan sesuai dengan drop halaman manual "User-agent:" sepenuhnya, karena itu tidak wajib. Jika server tidak menyukainya, coba
--user-agent="Mozilla/5.0"
yang mana yang cukup bagus.Tentu saja, itu akan membantu jika Anda menjelaskan lebih baik mengapa Anda "berpikir server memblokir itu". Apakah wget mengatakan sesuatu, atau hanya istirahat?
sumber
wget
memiliki sejumlah opsi untuk menunggu di antara permintaan, membatasi laju atau jumlah yang diunduh. Periksainfo
halaman untuk detailnya.Saya biasanya menggunakan
httrack
untuk mengunduh / mirroring konten web dari suatu situs.Setelah berjalan Anda dibiarkan dengan struktur direktori yang lokal dan dapat dijelajahi. Sebagai contoh:
Saat mengunduh, Anda akan melihat tipe keluaran berikut:
Ini dapat dilatar belakangi dan / atau dibatalkan dan kemudian dilanjutkan. Ini hanya puncak gunung es dalam hal fitur-fiturnya. Ada juga GUI untuk mengatur pengunduhan dan pemantauan saat proses berlangsung.
Ada dokumentasi yang luas di
httrack
situs web dan dengan googling.sumber