Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan perusahaan tertentu, yang dapat Anda lakukan secara manual di situs tetapi tidak dimungkinkan melalui API.
import.io akan sempurna jika mengenali pagination LinkedIn (lihat akhir halaman).
Adakah yang tahu alat atau teknik pengikis web apa pun yang berlaku untuk format situs LinkedIn saat ini, atau cara membengkokkan API untuk melakukan analisis yang lebih fleksibel? Lebih disukai dalam R atau berbasis web, tetapi tentu saja terbuka untuk pendekatan lain.
sumber
Jawaban:
Beautiful Soup dirancang khusus untuk perayapan dan pengikisan web, tetapi ditulis untuk python dan bukan R:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
sumber
Scrapy adalah pustaka Python yang hebat yang dapat membantu Anda mengikis berbagai situs lebih cepat dan membuat struktur kode Anda lebih baik. Tidak semua situs dapat diuraikan dengan alat klasik, karena mereka dapat menggunakan pembuatan konten JS dinamis. Untuk tugas ini lebih baik menggunakan Selenium (Ini adalah kerangka uji untuk situs web, tetapi juga merupakan alat pengikis web yang bagus). Ada juga pembungkus Python yang tersedia untuk perpustakaan ini. Di Google Anda dapat menemukan beberapa trik yang dapat membantu Anda menggunakan Selenium di dalam Scrapy dan membuat kode Anda jelas, terorganisir, dan Anda dapat menggunakan beberapa alat hebat untuk perpustakaan Scrapy .
Saya pikir Selenium akan menjadi pengikis yang lebih baik untuk Linkedin daripada alat klasik. Ada banyak konten javascript dan dinamis. Juga, jika Anda ingin membuat otentikasi di akun Anda dan mengikis semua konten yang tersedia, Anda akan mendapatkan banyak masalah dengan otentikasi klasik menggunakan perpustakaan sederhana seperti permintaan atau urllib .
sumber
Saya suka berinvestasi dalam kombinasi dengan plug-in chrome SelectorGadget untuk memilih bagian yang relevan.
Saya telah menggunakan rvest dan membuat skrip kecil untuk membuat paginasi melalui forum dengan:
sumber
Saya juga akan pergi dengan beautifulsoup, jika Anda tahu python. Jika Anda lebih suka kode javascript / JQuery (dan Anda terbiasa dengan node.js), Anda mungkin ingin checkout CoffeeScript (Lihat Tutorial ) Saya sudah menggunakannya dengan sukses pada beberapa kesempatan untuk menggores halaman web.
sumber
lxml adalah pustaka scrapping web yang bagus dengan Python. Beautiful Soup adalah pembungkus lebih dari lxml. Jadi, lxml lebih cepat daripada sup yang kasar dan indah dan memiliki kurva belajar yang jauh lebih mudah.
Ini adalah contoh pengikis yang saya buat untuk proyek pribadi, yang dapat diulang di halaman web.
sumber
BeautifulSoup tidak berfungsi di LinkedIn. Scrappy melanggar kebijakan. Octoparse hanya untuk Windows. Apakah ada cara lain? Saya ingin mengekstrak data Orang Serupa untuk akun seseorang. Tolong bantu!
sumber
Di sini, saya berbagi pengalaman sukses saya.
Octoparse adalah alat pengikis web gratis yang bagus . Saya menggunakannya untuk mengikis data Linkedin dengan sukses, dan di sini ada tutorial video terperinci untuk mengekstrak data dari Linkedin .
sumber