Wget mengalami masalah hanya dengan menyimpan file yang saya inginkan - mengecualikan direktori tidak berfungsi

1

Saya ingin mengunduh semua pengeluaran pemerintah lebih dari £ 500 oleh Departemen Energi dan Perubahan Iklim. Ini adalah file .xls dan .xlsx, dibuat sebulan sekali. Mereka disimpan di lokasi seperti ini:

https: // www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls

di mana nomor setelah file adalah nomor unik dan nama file tidak memiliki konsistensi penamaan. File-file ini ditautkan dari halaman bulanan individual yang memiliki bentuk:

https: // www.gov.uk/government/publications/departmental-spend-over-500-april-2013

yang pada gilirannya menghubungkan dari halaman indeks yaitu:

https://www.gov.uk/government/collections/departmental-spend-over-500

Perintah ini berfungsi:

wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500

tetapi juga file .xls dan .xlsx saya mendapatkan direktori lengkap dari situs .gov.uk (hingga kedalaman dua tautan dari tempat saya memulai) yang mengunduh ~ 100MB file teks / html selain file .xls yang agak berlebihan. Jadi pertanyaan saya adalah:

Bagaimana saya bisa membuat sumber wget hanya dari direktori di atas atau sebagai alternatif mengecualikan yang jelas tidak saya inginkan?

Saya sudah mencoba perintah -I dan -X, -D dll yang jelas tetapi tidak berhasil. NB Saya harus memasukkan "" serta file xls di -A switch kalau tidak akan mengabaikan file html yang menghubungkan ...

Semua saran dengan penuh terima kasih diterima! Ini ada di mac btw.

baronmax
sumber

Jawaban:

1

Ha! Akhirnya berhasil. Dalam menyertakan Anda harus menyertakan path lengkap untuk semua direktori - tetapi BUKAN url:

wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500

Tidak jelas - yah toh tidak bagi saya ...

(gulir ke kanan di kotak kode untuk melihat semuanya)

Sunting: Sebenarnya lebih baik - Saya sudah membaginya di sini:

wget -r -A xls,xlsx,"" -l 2 
-I /government/uploads/system/uploads/attachment_data/file/,
   /government/publications/,
   /government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500

Baris 1: rekursif, termasuk xls & amp; xlsx & amp; file yang tidak memiliki ekstensi (- dalam hal ini file html ...) dan lakukan dua level dari yang ditentukan dalam baris 5

Baris 2-4: sertakan jalur / direktori ini dari url teratas (mis. kecualikan yang lainnya)

Baris 5: mulai dari mana

baronmax
sumber