Gunakan liblinear pada data besar untuk analisis semantik

17

Saya menggunakan Libsvm untuk melatih data dan memprediksi klasifikasi pada masalah analisis semantik . Tetapi memiliki masalah kinerja pada data skala besar, karena analisis semantik menyangkut masalah n-dimensi .

Tahun lalu, Liblinear dirilis, dan itu dapat menyelesaikan hambatan kinerja. Tetapi biaya memori terlalu banyak . Apakah MapReduce satu-satunya cara untuk menyelesaikan masalah analisis semantik pada data besar? Atau adakah metode lain yang dapat meningkatkan bottleneck memori pada Liblinear ?

Puffin GDI
sumber

Jawaban:

11

Perhatikan bahwa ada versi awal LIBLINEAR porting ke Apache Spark . Lihat komentar milis untuk rincian awal, dan situs proyek .

Sean Owen
sumber
Terima kasih atas jawaban anda. Sepertinya berbeda dari SVM. Saya akan survei itu. :)
Puffin GDI
4
Hanya pengingat bahwa kami tidak menganjurkan menautkan di luar situs ke jawaban karena mudahnya tautan diputus, menyebabkan sumber daya komunitas yang sebaliknya berguna malah berubah menjadi jalan buntu. Itu selalu yang terbaik untuk menempatkan jawaban langsung ke posting Anda.
Ana
1
Setuju dengan itu. Pada titik ini, bagaimanapun juga, tautan itu nyaris tidak ada. Saya akan menambahkan tautan ke proyek yang mendasarinya.
Sean Owen
10

Anda dapat memeriksa vowpal wabbit . Ini cukup populer untuk pembelajaran skala besar dan mencakup ketentuan paralel.

Dari situs web mereka:

VW adalah inti dari kecepatan dalam pembelajaran mesin, mampu belajar dari set data terafeature dengan mudah. Melalui pembelajaran paralel, dapat melebihi throughput dari setiap antarmuka jaringan mesin saat melakukan pembelajaran linier, yang pertama di antara algoritma pembelajaran.

Marc Claesen
sumber
1
Sumber terbuka dan beberapa wiki. Itu terlihat bagus. Terima kasih atas saran Anda. :)
Puffin GDI