Bagaimana cara mengikis tabel html menggunakan paket XML?
Ambil, misalnya, halaman wikipedia ini tentang tim sepak bola Brasil . Saya ingin membacanya di R dan mendapatkan tabel "daftar semua pertandingan yang dimainkan Brasil melawan tim yang diakui FIFA" sebagai data.frame. Bagaimana saya bisa melakukan ini?
Jawaban:
... atau coba yang lebih singkat:
meja yang dipilih adalah yang terpanjang di halaman
sumber
Diedit untuk menambahkan:
Output sampel
sumber
Opsi lain menggunakan Xpath.
Menghasilkan hasil ini
sumber
Paket
rvest
bersamaxml2
adalah paket populer lainnya untuk mem-parsing halaman web html.Sintaks lebih mudah digunakan daripada
xml
paket dan untuk sebagian besar halaman web paket menyediakan semua opsi yang dibutuhkan.sumber