Saya mencoba mengunduh dua situs untuk dimasukkan dalam CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Masalah yang saya alami adalah keduanya wiki. Jadi saat mengunduh dengan mis:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Saya mendapatkan banyak file karena ia juga mengikuti tautan seperti ...? Action = edit ...? Action = diff & versi = ...
Apakah ada yang tahu cara untuk mengatasi ini?
Saya hanya ingin halaman saat ini, tanpa gambar, dan tanpa perbedaan dll.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Ini berfungsi untuk berkeley tetapi boinc-wiki.info masih memberi saya masalah: /
PPS:
Saya mendapatkan halaman yang paling relevan dengan:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Jawaban:
(
--reject-type posix
secara default). Hanya berfungsi untuk versi terbaru (> = 1.14)wget
, menurut komentar lain.Hati-hati karena tampaknya Anda
--reject-regex
hanya dapat menggunakan satu kali perwget
panggilan. Artinya, Anda harus menggunakan|
dalam satu regex jika Anda ingin memilih pada beberapa regex:sumber
wget --reject-regex '\?' http://example.com
sudah cukup.The dokumentasi untuk wget mengatakan:
Sepertinya fungsi ini sudah di atas meja untuk sementara dan tidak ada yang dilakukan dengan itu.
Saya belum pernah menggunakannya, tetapi httrack sepertinya memiliki fitur penyaringan yang lebih kuat daripada wget dan mungkin lebih cocok untuk apa yang Anda cari (baca tentang filter di sini http://www.httrack.com/html /fcguide.html ).
sumber
Versi baru wget (v.1.14) menyelesaikan semua masalah ini.
Anda harus menggunakan opsi baru
--reject-regex=....
untuk menangani string kueri.Perhatikan bahwa saya tidak dapat menemukan manual baru yang menyertakan opsi-opsi baru ini, jadi Anda harus menggunakan perintah bantuan
wget --help > help.txt
sumber
Pavuk harus dapat melakukannya:
http://pavuk.sourceforge.net/man.html#sect39
Contoh mediawiki:
sumber
Sepertinya Anda mencoba menghindari mengunduh halaman khusus MediaWiki. Saya memecahkan masalah ini setelah menghindari
index.php
halaman:Namun, wiki menggunakan URL seperti yang terlihat di Wikipedia (
http://<wiki>/en/Theme
) dan bukan pola yang saya lihat di tempat lain (http://<wiki>/index.php?title=Theme
). Karena tautan yang Anda berikan menggunakan URL dalam pola Wikipedia, saya pikir solusi ini juga dapat bekerja untuk Anda.sumber
'-R rejlist - rej rejlist' Tentukan daftar sufiks atau pola nama file yang dipisahkan koma untuk menerima atau menolak (lihat Jenis File). Perhatikan bahwa jika salah satu karakter wildcard, '*', '?', '[' Atau ']', muncul dalam elemen daftar masuk atau bergabung kembali, itu akan diperlakukan sebagai pola, bukan sufiks.
Pola mungkin yang Anda inginkan. Saya tidak yakin seberapa canggih polanya, tetapi Anda bisa mencoba menerima hanya file atau blokir tertentu:
Menerima:
Edit: nvm dalam terang dari posting lain.
sumber