Menggores web LinkedIn

11

Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan perusahaan tertentu, yang dapat Anda lakukan secara manual di situs tetapi tidak dimungkinkan melalui API.

import.io akan sempurna jika mengenali pagination LinkedIn (lihat akhir halaman).

Adakah yang tahu alat atau teknik pengikis web apa pun yang berlaku untuk format situs LinkedIn saat ini, atau cara membengkokkan API untuk melakukan analisis yang lebih fleksibel? Lebih disukai dalam R atau berbasis web, tetapi tentu saja terbuka untuk pendekatan lain.

christopherlovell
sumber
2
Pengikis web LinkedIn melanggar ketentuan layanan mereka. Lihat LinkedIn “DOs” dan “DON'Ts” - JANGAN: "Menggunakan perangkat lunak manual atau otomatis, perangkat, robot skrip, cara atau proses lain untuk mengakses," mengikis, "" merangkak "atau" spider "Layanan atau apa pun data atau informasi terkait; "
Brian Spiering

Jawaban:

3

Scrapy adalah pustaka Python yang hebat yang dapat membantu Anda mengikis berbagai situs lebih cepat dan membuat struktur kode Anda lebih baik. Tidak semua situs dapat diuraikan dengan alat klasik, karena mereka dapat menggunakan pembuatan konten JS dinamis. Untuk tugas ini lebih baik menggunakan Selenium (Ini adalah kerangka uji untuk situs web, tetapi juga merupakan alat pengikis web yang bagus). Ada juga pembungkus Python yang tersedia untuk perpustakaan ini. Di Google Anda dapat menemukan beberapa trik yang dapat membantu Anda menggunakan Selenium di dalam Scrapy dan membuat kode Anda jelas, terorganisir, dan Anda dapat menggunakan beberapa alat hebat untuk perpustakaan Scrapy .

Saya pikir Selenium akan menjadi pengikis yang lebih baik untuk Linkedin daripada alat klasik. Ada banyak konten javascript dan dinamis. Juga, jika Anda ingin membuat otentikasi di akun Anda dan mengikis semua konten yang tersedia, Anda akan mendapatkan banyak masalah dengan otentikasi klasik menggunakan perpustakaan sederhana seperti permintaan atau urllib .

itdxer
sumber
1

Saya suka berinvestasi dalam kombinasi dengan plug-in chrome SelectorGadget untuk memilih bagian yang relevan.

Saya telah menggunakan rvest dan membuat skrip kecil untuk membuat paginasi melalui forum dengan:

  1. Cari objek "Halaman n M"
  2. Ekstrak m
  3. Berdasarkan pada struktur halaman, buat daftar tautan dari 1 hingga m (mis. Www.sample.com/page1)
  4. Iterasikan scraper melalui daftar lengkap tautan
Inggris
sumber
0

Saya juga akan pergi dengan beautifulsoup, jika Anda tahu python. Jika Anda lebih suka kode javascript / JQuery (dan Anda terbiasa dengan node.js), Anda mungkin ingin checkout CoffeeScript (Lihat Tutorial ) Saya sudah menggunakannya dengan sukses pada beberapa kesempatan untuk menggores halaman web.

Hannes
sumber
0

lxml adalah pustaka scrapping web yang bagus dengan Python. Beautiful Soup adalah pembungkus lebih dari lxml. Jadi, lxml lebih cepat daripada sup yang kasar dan indah dan memiliki kurva belajar yang jauh lebih mudah.

Ini adalah contoh pengikis yang saya buat untuk proyek pribadi, yang dapat diulang di halaman web.

Dawny33
sumber
0

BeautifulSoup tidak berfungsi di LinkedIn. Scrappy melanggar kebijakan. Octoparse hanya untuk Windows. Apakah ada cara lain? Saya ingin mengekstrak data Orang Serupa untuk akun seseorang. Tolong bantu!

Chinmay Joshi
sumber
1
Silakan posting ini sebagai komentar, atau ajukan pertanyaan baru
christopherlovell
Ini adalah informasi penting tetapi harap hapus pertanyaan di dalamnya jika ini seharusnya menjadi jawaban.
Pithikos