Saya menemukan situs web ini yang membicarakan hal ini.
Jadi ketika mengunduh seluruh situs web dengan mendapatkan versi yang di-gzip, apa perintah yang benar?
Saya sudah menguji perintah ini, tetapi saya tidak tahu apakah wget benar-benar mendapatkan versi yang di-gzip:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Jawaban:
Jika Anda meminta konten gzip (menggunakan header accept-encoding: gzip, yang benar), maka menurut saya wget tidak dapat membaca konten tersebut. Jadi Anda akan berakhir dengan satu file, gzip pada disk, untuk halaman pertama yang Anda tekan, tetapi tidak ada konten lain.
yaitu Anda tidak dapat menggunakan wget untuk meminta konten yang di-gzip dan untuk mengulang kembali seluruh situs secara bersamaan.
Saya pikir ada tambalan yang memungkinkan wget untuk mendukung fungsi ini tetapi tidak dalam versi distribusi default.
Jika Anda menyertakan flag -S, Anda dapat mengetahui apakah server web merespons dengan jenis konten yang benar. Sebagai contoh,
Pengkodean konten dengan jelas menyatakan gzip, namun untuk linux.about.com (saat ini),
Ini mengembalikan teks / html.
Karena beberapa browser lama masih memiliki masalah dengan konten yang disandikan gzip, banyak situs hanya mengaktifkannya berdasarkan identifikasi browser. Mereka sering mematikannya secara default dan hanya mematikannya ketika mereka tahu browser dapat mendukungnya - dan mereka biasanya tidak memasukkan wget dalam daftar itu. Ini berarti Anda mungkin menemukan wget tidak pernah mengembalikan konten gzip bahkan jika situs tersebut melakukannya untuk browser Anda.
sumber
Content-Type: text/html; charset=UTF-8
, tetapi ada jugaContent-Encoding: gzip
. Tidak akan kompresi transparan jika menggunakannya memaksa tipe MIME segalanya untuk gzip ... Aku berlaristrace -s 128 wget ...
untuk benar-benar melihat beberapa byte dibaca dari socket / ditulis ke disk. Mereka bukan ASCII. Jadi sementara saya pikir pada tahun 2011 perintah Anda tidak menerima versi gzip, pada tahun 2015 perintah yang sama melakukannya. (wget 1,15).perintah sederhana untuk mendapatkan halaman html dan mengompresnya atau mendapatkan file apa saja dan dikompresi.
untuk informasi lebih lanjut tentang opsi ini. gunakan perintah man.
sumber