Saya perlu mengurai (sisi server) halaman HTML dalam jumlah besar.
Kami semua setuju bahwa regexp bukanlah cara untuk menuju ke sini.
Menurut saya, javascript adalah cara asli untuk mengurai halaman HTML, tetapi asumsi tersebut bergantung pada kode sisi server yang memiliki semua kemampuan DOM yang dimiliki javascript di dalam browser.
Apakah Node.js memiliki kemampuan itu?
Apakah ada pendekatan yang lebih baik untuk masalah ini, mengurai HTML di sisi server?
sumber
Gunakan Cheerio . Ini tidak seketat jsdom dan dioptimalkan untuk scraping. Sebagai bonus, gunakan penyeleksi jQuery yang sudah Anda kenal.
sumber
jsdom
terlalu lambat untuk itu: /Gunakan htmlparser2 , caranya lebih cepat dan sangat mudah. Konsultasikan contoh penggunaan ini:
https://www.npmjs.org/package/htmlparser2#usage
Dan demo langsungnya di sini:
http://demos.forbeslindesay.co.uk/htmlparser2/
sumber
Htmlparser2 oleh FB55 tampaknya menjadi alternatif yang baik.
sumber
jsdom terlalu ketat untuk melakukan hal-hal seperti layar nyata, tapi beautifulsoup tidak tersedak markup yang buruk.
node-soupselect adalah port beautifulsoup python ke nodejs, dan berfungsi dengan baik
sumber