Ini sedikit di luar topik, tapi saya harap kalian akan membantu saya. Saya telah menemukan situs web yang penuh dengan artikel yang saya butuhkan, tetapi itu dicampur dengan banyak file yang tidak berguna (terutama jpg).
Saya ingin tahu apakah ada cara untuk menemukan ( tidak mengunduh ) semua PDF di server untuk membuat daftar tautan. Pada dasarnya saya hanya ingin menyaring semua yang bukan PDF, untuk mendapatkan pandangan yang lebih baik tentang apa yang harus diunduh dan apa yang tidak.
Jawaban:
Gambaran
Ok, ini dia. Ini adalah solusi terprogram dalam bentuk skrip:
Instalasi
Anda harus memiliki
wget
danlynx
menginstal:Pemakaian
Script akan mendapatkan daftar semua
.pdf
file di situs web dan membuangnya ke output baris perintah dan ke file teks di direktori kerja. Jika Anda mengomentari perintah "opsional"wget
, skrip akan melanjutkan untuk mengunduh semua file ke direktori baru.Contoh
sumber
"$(pwd)/pdflinks.txt"
bukanpdflinks.txt
?potongan javascript sederhana dapat menyelesaikan ini: (CATATAN: Saya menganggap semua file pdf diakhiri dengan .pdf dalam tautan.)
buka konsol javascript browser Anda, salin kode berikut dan tempel ke konsol js, selesai!
sumber
lu
fungsi yang dibutuhkan untuk menjadi:lu.endsWith (".pdf") == 1
, maka itu membuat saya hanya link PDF, tidak semua link dengan "* .pdf *" di dalamnya, yang adalah apa yang saya punya dengan kode seperti yang diposting. FWIW.