Saya akan lulus dari Master saya dan telah belajar tentang pembelajaran mesin serta melakukan proyek penelitian dengannya. Saya bertanya-tanya tentang praktik terbaik di industri saat melakukan tugas pembelajaran mesin dengan Kumpulan Data Besar (seperti 100-an GB atau TB). Menghargai jika sesama ilmuwan data dapat berbagi pengalaman mereka. Ini pertanyaan saya:
- Tentunya, dataset yang sangat besar membutuhkan waktu lebih lama untuk dilatih (bisa berhari-hari atau berminggu-minggu). Sering kali kita perlu melatih berbagai model (SVM, Neural Network, dll.) Untuk membandingkan dan menemukan model kinerja yang lebih baik. Saya curiga, dalam proyek industri, kami ingin hasilnya secepat mungkin tetapi menghasilkan kinerja terbaik. Apakah ada tips untuk mengurangi waktu pelatihan & pengujian? Jika Anda merekomendasikan untuk menyetel ulang dataset, saya akan tertarik untuk mempelajari cara terbaik untuk mengatur ulang dataset untuk mencakup semua atau sebagian besar skenario dari dataset.
- Kami tahu bahwa melakukan validasi silang lebih baik karena dapat mengurangi pemasangan berlebihan. Namun, validasi silang juga membutuhkan waktu untuk melatih dan model yang dilatih dengan validasi silang tidak dapat diimplementasikan secara langsung (berbicara dari pengalaman python sklearn: Saya perlu melatih model dengan dataset lagi setelah pengujian validasi silang untuk diterapkan). Apakah Anda biasanya melakukan validasi silang dalam proyek big data Anda atau bertahan dengan uji kereta api?
Hargai umpan baliknya.
Pertanyaannya adalah, berapa banyak data yang dibutuhkan untuk memenuhi model Anda? Untuk menentukan ini, Anda dapat memplot kurva belajar dengan jumlah data yang bervariasi, mungkin memperbesar / memperkecil ukuran dengan faktor konstan. Jika pelatihan tentang semua data tidak layak, kurva pembelajaran dapat membantu Anda melakukan pertukaran informasi.
Model saturasi juga berperan dalam validasi silang. Jika Anda tidak mendekati saturasi, menggunakan sejumlah kecil lipatan akan memberi Anda angka kinerja pesimistis karena Anda akan melatih model Anda tentang data yang lebih sedikit daripada yang dapat digunakan.
Akhirnya dan sebaliknya, Anda dapat menggunakan model yang lebih kompleks daripada "mengubah ukuran" data agar sesuai dengan model.
Selamat datang di DataScience.SE.
sumber