Jadi saya mencoba membuat skrip Python yang mengunduh webcomics dan meletakkannya di folder di desktop saya. Saya telah menemukan beberapa program serupa di sini yang melakukan sesuatu yang serupa, tetapi tidak seperti yang saya butuhkan. Yang saya temukan paling mirip ada di sini ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Saya mencoba menggunakan kode ini:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Saya kemudian mencari file "00000001.jpg" di komputer saya, tetapi yang saya temukan hanyalah gambar cache. Saya bahkan tidak yakin itu menyimpan file ke komputer saya. Setelah saya mengerti bagaimana cara mengunduh file, saya pikir saya tahu bagaimana menangani sisanya. Pada dasarnya cukup gunakan for loop dan pisahkan string pada '00000000'. 'Jpg' dan tambahkan '00000000' hingga jumlah terbesar, yang entah bagaimana harus saya tentukan. Adakah rekomendasi tentang cara terbaik untuk melakukan ini atau cara mengunduh file dengan benar?
Terima kasih!
EDIT 6/15/10
Ini adalah skrip yang sudah selesai, menyimpan file ke direktori yang Anda pilih. Untuk beberapa alasan aneh, file tidak diunduh dan mereka baru saja melakukannya. Setiap saran tentang cara membersihkannya akan sangat dihargai. Saat ini saya sedang mencari tahu bagaimana menemukan banyak komik di situs ini sehingga saya bisa mendapatkan yang terbaru, daripada membiarkan program berhenti setelah sejumlah pengecualian muncul.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Posting ini muncul di daftarbeautifulsoup
pertanyaan teratasJawaban:
Python 2
Menggunakan urllib.urlretrieve
Python 3
Menggunakan urllib.request.urlretrieve (bagian dari antarmuka warisan Python 3, bekerja persis sama)
sumber
import urllib.request urllib.request.retrieve("http://...")
import urllib.request urllib.request.urlretrieve("http://...jpg", "1.jpg")
. Iniurlretrieve
sekarang seperti dari 3.x.sumber
Hanya sebagai catatan, menggunakan perpustakaan permintaan.
Meskipun itu harus memeriksa kesalahan requests.get ().
sumber
Untuk Python 3 Anda harus mengimpor
import urllib.request
:untuk info lebih lanjut lihat tautannya
sumber
Versi Python 3 dari jawaban @ DiGMi:
sumber
Saya telah menemukan jawaban ini dan saya mengeditnya dengan cara yang lebih dapat diandalkan
Dari sini Anda tidak pernah mendapatkan sumber atau pengecualian lain saat mengunduh.
sumber
Jika Anda tahu bahwa file-file tersebut berada di direktori yang sama
dir
dengan situs website
dan memiliki format berikut: filename_01.jpg, ..., filename_10.jpg lalu unduh semuanya:sumber
Cara termudah adalah cukup
.read()
dengan membaca sebagian atau seluruh respons, lalu menuliskannya ke file yang telah Anda buka di lokasi yang dikenal baik.sumber
Mungkin Anda membutuhkan 'User-Agent':
sumber
Selain menyarankan Anda membaca dokumen dengan
retrieve()
hati - hati ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), saya akan menyarankan untuk benar-benar memanggilread()
konten respons, dan kemudian menyimpannya ke dalam file pilihan Anda daripada meninggalkannya di file sementara yang mengambil buat.sumber
Semua kode di atas, jangan izinkan untuk menyimpan nama gambar asli, yang kadang-kadang diperlukan. Ini akan membantu dalam menyimpan gambar ke drive lokal Anda, menjaga nama gambar asli
Coba ini untuk lebih jelasnya.
sumber
Ini bekerja untuk saya menggunakan python 3.
Ia mendapat daftar URL dari file csv dan mulai mengunduhnya ke dalam folder. Dalam hal konten atau gambar tidak ada, diperlukan pengecualian itu dan terus membuat keajaibannya.
sumber
Solusi yang lebih sederhana adalah (python 3):
sumber
Bagaimana dengan ini:
sumber
Jika Anda memerlukan dukungan proxy, Anda dapat melakukan ini:
sumber
Cara lain untuk melakukan ini adalah melalui perpustakaan fastai. Ini bekerja seperti pesona bagi saya. Saya menghadapi
SSL: CERTIFICATE_VERIFY_FAILED Error
penggunaanurlretrieve
jadi saya mencobanya.sumber
Menggunakan permintaan
sumber
Dengan menggunakan urllib, Anda bisa menyelesaikan ini secara instan.
sumber