Saya ingin mengunduh semua pengeluaran pemerintah lebih dari £ 500 oleh Departemen Energi dan Perubahan Iklim. Ini adalah file .xls dan .xlsx, dibuat sebulan sekali. Mereka disimpan di lokasi seperti ini:
https: // www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls
di mana nomor setelah file adalah nomor unik dan nama file tidak memiliki konsistensi penamaan. File-file ini ditautkan dari halaman bulanan individual yang memiliki bentuk:
https: // www.gov.uk/government/publications/departmental-spend-over-500-april-2013
yang pada gilirannya menghubungkan dari halaman indeks yaitu:
https://www.gov.uk/government/collections/departmental-spend-over-500
Perintah ini berfungsi:
wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500
tetapi juga file .xls dan .xlsx saya mendapatkan direktori lengkap dari situs .gov.uk (hingga kedalaman dua tautan dari tempat saya memulai) yang mengunduh ~ 100MB file teks / html selain file .xls yang agak berlebihan. Jadi pertanyaan saya adalah:
Bagaimana saya bisa membuat sumber wget hanya dari direktori di atas atau sebagai alternatif mengecualikan yang jelas tidak saya inginkan?
Saya sudah mencoba perintah -I dan -X, -D dll yang jelas tetapi tidak berhasil. NB Saya harus memasukkan "" serta file xls di -A switch kalau tidak akan mengabaikan file html yang menghubungkan ...
Semua saran dengan penuh terima kasih diterima! Ini ada di mac btw.