Menggores web LinkedIn

11

Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan perusahaan tertentu, yang dapat Anda lakukan secara manual di situs tetapi tidak dimungkinkan melalui API.

import.io akan sempurna jika mengenali pagination LinkedIn (lihat akhir halaman).

Adakah yang tahu alat atau teknik pengikis web apa pun yang berlaku untuk format situs LinkedIn saat ini, atau cara membengkokkan API untuk melakukan analisis yang lebih fleksibel? Lebih disukai dalam R atau berbasis web, tetapi tentu saja terbuka untuk pendekatan lain.

data-mining social-network-analysis crawling scraping christopherlovell
sumber

2

Pengikis web LinkedIn melanggar ketentuan layanan mereka. Lihat LinkedIn “DOs” dan “DON'Ts” - JANGAN: "Menggunakan perangkat lunak manual atau otomatis, perangkat, robot skrip, cara atau proses lain untuk mengakses," mengikis, "" merangkak "atau" spider "Layanan atau apa pun data atau informasi terkait; "

Brian Spiering

10

Beautiful Soup dirancang khusus untuk perayapan dan pengikisan web, tetapi ditulis untuk python dan bukan R:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Jagartner
sumber

2

Saya tidak berpikir sup yang indah memungkinkan Anda untuk mengulangi halaman, ternyata Anda bisa . Terima kasih

christopherlovell

3

Scrapy adalah pustaka Python yang hebat yang dapat membantu Anda mengikis berbagai situs lebih cepat dan membuat struktur kode Anda lebih baik. Tidak semua situs dapat diuraikan dengan alat klasik, karena mereka dapat menggunakan pembuatan konten JS dinamis. Untuk tugas ini lebih baik menggunakan Selenium (Ini adalah kerangka uji untuk situs web, tetapi juga merupakan alat pengikis web yang bagus). Ada juga pembungkus Python yang tersedia untuk perpustakaan ini. Di Google Anda dapat menemukan beberapa trik yang dapat membantu Anda menggunakan Selenium di dalam Scrapy dan membuat kode Anda jelas, terorganisir, dan Anda dapat menggunakan beberapa alat hebat untuk perpustakaan Scrapy .

Saya pikir Selenium akan menjadi pengikis yang lebih baik untuk Linkedin daripada alat klasik. Ada banyak konten javascript dan dinamis. Juga, jika Anda ingin membuat otentikasi di akun Anda dan mengikis semua konten yang tersedia, Anda akan mendapatkan banyak masalah dengan otentikasi klasik menggunakan perpustakaan sederhana seperti permintaan atau urllib .

itdxer
sumber

1

Saya suka berinvestasi dalam kombinasi dengan plug-in chrome SelectorGadget untuk memilih bagian yang relevan.

Saya telah menggunakan rvest dan membuat skrip kecil untuk membuat paginasi melalui forum dengan:

Cari objek "Halaman n M"
Ekstrak m
Berdasarkan pada struktur halaman, buat daftar tautan dari 1 hingga m (mis. Www.sample.com/page1)
Iterasikan scraper melalui daftar lengkap tautan

Inggris
sumber

0

Saya juga akan pergi dengan beautifulsoup, jika Anda tahu python. Jika Anda lebih suka kode javascript / JQuery (dan Anda terbiasa dengan node.js), Anda mungkin ingin checkout CoffeeScript (Lihat Tutorial ) Saya sudah menggunakannya dengan sukses pada beberapa kesempatan untuk menggores halaman web.

Hannes
sumber

0

lxml adalah pustaka scrapping web yang bagus dengan Python. Beautiful Soup adalah pembungkus lebih dari lxml. Jadi, lxml lebih cepat daripada sup yang kasar dan indah dan memiliki kurva belajar yang jauh lebih mudah.

Ini adalah contoh pengikis yang saya buat untuk proyek pribadi, yang dapat diulang di halaman web.

Dawny33
sumber

0

BeautifulSoup tidak berfungsi di LinkedIn. Scrappy melanggar kebijakan. Octoparse hanya untuk Windows. Apakah ada cara lain? Saya ingin mengekstrak data Orang Serupa untuk akun seseorang. Tolong bantu!

Chinmay Joshi
sumber

1

Silakan posting ini sebagai komentar, atau ajukan pertanyaan baru

christopherlovell

Ini adalah informasi penting tetapi harap hapus pertanyaan di dalamnya jika ini seharusnya menjadi jawaban.

Pithikos

0

Di sini, saya berbagi pengalaman sukses saya.

Octoparse adalah alat pengikis web gratis yang bagus . Saya menggunakannya untuk mengikis data Linkedin dengan sukses, dan di sini ada tutorial video terperinci untuk mengekstrak data dari Linkedin .

Linda
sumber

Menggores web LinkedIn

Jawaban: