Saya berencana untuk menggunakan classifier scikit linear support vector machine (SVM) untuk klasifikasi teks pada corpus yang terdiri dari 1 juta dokumen berlabel. Apa yang saya rencanakan untuk lakukan adalah, ketika pengguna memasukkan beberapa kata kunci, classifier pertama akan mengklasifikasikannya dalam kategori, dan kemudian pencarian informasi berikutnya akan terjadi di dalam dokumen kategori kategori tersebut. Saya punya beberapa pertanyaan:
- Bagaimana saya mengonfirmasi bahwa klasifikasi tidak akan memakan banyak waktu? Saya tidak ingin pengguna harus menghabiskan waktu menunggu klasifikasi selesai untuk mendapatkan hasil yang lebih baik.
- Apakah menggunakan pustaka scikit Python untuk situs web / aplikasi web cocok untuk ini?
- Adakah yang tahu bagaimana amazon atau flipkart melakukan klasifikasi pada permintaan pengguna, atau apakah mereka menggunakan logika yang sama sekali berbeda?
machine-learning
classification
python
scikit-learn
pengguna3498
sumber
sumber
Jawaban:
Satu-satunya cara yang dapat diandalkan untuk melihat berapa lama waktu yang dibutuhkan adalah mengkodekannya dan mencobanya. Pelatihan akan membutuhkan lebih banyak waktu, maka Anda dapat menyimpan model Anda (acar) untuk digunakan nanti.
sumber
Saya tidak melihat masalah besar di sini. Jadi, saya akan mencoba menjawab semua pertanyaan Anda dari sudut pandang tingkat produksi:
Ambil subkumpulan data corpus yang Anda miliki (Anda dapat melakukannya secara acak, tidak perlu pengambilan sampel), dan uji algoritme Anda padanya, dan mereka memperkirakan / menggeneralisasikannya ke dataset keseluruhan.
(SVM relatif lebih cepat. Namun demikian, lakukan proses di atas hanya untuk memastikan.)
Dan lakukan pengujian di lingkungan pengembangan sebelum mendorong produksi.
Ya , benar. Ini sudah digunakan oleh banyak perusahaan di luar sana.
Pertanyaan ketiga tentang Amazon dan Flipkart tidak dapat dijawab oleh seseorang di luar tim mereka.
Selain itu, saya akan menyarankan Anda untuk menggunakan teknik mapreduce untuk melatih model Anda. Dan seperti yang sudah disarankan, pilih model Anda sehingga Anda tidak perlu melatih mereka dengan setiap permintaan.
sumber