Alternatif untuk wget

12

Saya memiliki situs di server yang pada dasarnya adalah sekelompok halaman HTML, gambar dan suara.

Saya telah kehilangan kata sandi saya ke server itu dan saya perlu mengambil semua yang disimpan di sana. Saya dapat pergi halaman demi halaman dan menyimpan semuanya tetapi situs ini memiliki lebih dari 100 halaman.

Saya menggunakan OSX. Saya sudah mencoba menggunakan wgettetapi saya pikir server memblokir itu.

Apakah ada alternatif yang bisa saya gunakan untuk mengambil konten itu?

SpaceDog
sumber
Jika Anda memiliki akses fisik ke server, boot ke mode pengguna tunggal dan pulihkan kata sandi Anda. debuntu.org/...
spuder

Jawaban:

14

Jika server memblokir wget, kemungkinan besar melakukannya berdasarkan bidang "User-agent:" pada header http, karena itulah satu-satunya cara untuk mengetahuinya sejak awal. Bisa juga memblokir IP Anda, dalam hal ini menggunakan perangkat lunak yang berbeda tidak akan membantu, atau skema yang mengidentifikasi otomatisasi berdasarkan seberapa cepat seperangkat permintaan (karena orang sungguhan tidak menelusuri 100 halaman dalam 3,2 detik) . Saya belum pernah mendengar ada yang melakukan itu, tetapi itu mungkin.

Saya juga belum pernah mendengar cara untuk memperlambat wget, tetapi ada cara untuk menipu bidang pengguna-agen:

wget --user-agent=""

Akan sesuai dengan drop halaman manual "User-agent:" sepenuhnya, karena itu tidak wajib. Jika server tidak menyukainya, coba --user-agent="Mozilla/5.0"yang mana yang cukup bagus.

Tentu saja, itu akan membantu jika Anda menjelaskan lebih baik mengapa Anda "berpikir server memblokir itu". Apakah wget mengatakan sesuatu, atau hanya istirahat?

goldilocks
sumber
Oh ya! Terima kasih. Saya telah melewatkan itu pada bantuan wget. Ini berfungsi sekarang !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog
5
wgetmemiliki sejumlah opsi untuk menunggu di antara permintaan, membatasi laju atau jumlah yang diunduh. Periksa infohalaman untuk detailnya.
Stéphane Chazelas
6

Saya biasanya menggunakan httrackuntuk mengunduh / mirroring konten web dari suatu situs.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Setelah berjalan Anda dibiarkan dengan struktur direktori yang lokal dan dapat dijelajahi. Sebagai contoh:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Saat mengunduh, Anda akan melihat tipe keluaran berikut:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Ini dapat dilatar belakangi dan / atau dibatalkan dan kemudian dilanjutkan. Ini hanya puncak gunung es dalam hal fitur-fiturnya. Ada juga GUI untuk mengatur pengunduhan dan pemantauan saat proses berlangsung.

Ada dokumentasi yang luas di httracksitus web dan dengan googling.

slm
sumber