Saya ingin mendapatkan konten dari situs web di bawah ini. Jika saya menggunakan browser seperti Firefox atau Chrome, saya bisa mendapatkan halaman situs web asli yang saya inginkan, tetapi jika saya menggunakan paket permintaan Python (atau wget
perintah) untuk mendapatkannya, halaman tersebut mengembalikan halaman HTML yang sama sekali berbeda. Saya pikir pengembang situs web telah membuat beberapa blok untuk ini, jadi pertanyaannya adalah:
Bagaimana cara memalsukan kunjungan browser dengan menggunakan permintaan python atau perintah wget?
sumber
PhantomJS
browser tanpa kepala dengan selenium. Terima kasih. (jangan lupa untuk menerima jawabannya jika itu membantu)UserAgent
. Ada yang tahu kenapa? Adakah yang bisa memberikan daftar yang dapat diterimaUserAgent
?jika pertanyaan ini masih berlaku
Saya menggunakan UserAgent palsu
Cara Penggunaan:
keluaran:
sumber
Coba lakukan ini, menggunakan firefox sebagai agen pengguna palsu (terlebih lagi, ini adalah skrip startup yang baik untuk web scraping dengan menggunakan cookie):
PEMAKAIAN:
sumber
Akar dari jawabannya adalah bahwa orang yang mengajukan pertanyaan tersebut harus memiliki juru bahasa JavaScript untuk mendapatkan apa yang mereka cari. Apa yang saya temukan adalah saya bisa mendapatkan semua informasi yang saya inginkan di situs web di json sebelum diinterpretasikan oleh JavaScript. Ini telah menghemat banyak waktu saya dalam apa yang akan menjadi parsing html dengan harapan setiap halaman web dalam format yang sama.
Jadi ketika Anda mendapatkan respon dari sebuah situs web yang menggunakan permintaan benar-benar melihat html / teks karena Anda mungkin menemukan JSON javascript di footer siap untuk diurai.
sumber