Saya seorang peneliti dan saya suka menguji solusi yang layak, jadi saya cenderung menjalankan banyak eksperimen. Misalnya, jika saya menghitung skor kesamaan antara dokumen, saya mungkin ingin mencoba banyak langkah. Bahkan, untuk setiap ukuran saya mungkin perlu melakukan beberapa kali pengujian untuk menguji efek dari beberapa parameter.
Sejauh ini, saya telah melacak input yang berjalan dan hasilnya dengan menuliskan hasilnya ke dalam file dengan sebanyak mungkin info tentang input tersebut. Masalahnya adalah bahwa kadang-kadang mengambil hasil tertentu menjadi tantangan, bahkan jika saya mencoba menambahkan info input ke nama file. Saya mencoba menggunakan spreadsheet dengan tautan ke hasil tetapi ini tidak membuat perbedaan besar.
Alat / proses apa yang Anda gunakan untuk pembukuan percobaan?
sumber
Jawaban:
Anda mungkin ingin melihat http://deeplearning.net/software/jobman/intro.html
itu dirancang untuk pembelajaran yang mendalam (saya kira), tetapi itu adalah aplikasi agnostik. Ini secara efektif merupakan versi API dari pendekatan SeanEasters
sumber
Saya baru-baru ini mengalami masalah yang sama: Bagaimana mengelola mengekstraksi berbagai fitur dari dataset besar, tanpa mengetahui apa yang akan terjadi di depan. (Bahkan menghitung nilai rata-rata berulang kali akan menjadi mahal secara komputasi.) Lebih lanjut, bagaimana saya mengelola prediksi berdasarkan set fitur yang berbeda? Artinya, jika saya menambahkan fitur baru, bagaimana saya tahu model mana yang akan dilatih pada fitur baru? Itu bisa dengan cepat berubah menjadi kekacauan besar.
Solusi saya saat ini adalah untuk melacak semuanya di database NoSQL lokal (MongoDB). Sebagai contoh, saya mungkin memiliki koleksi
features
, setiap entri yang memiliki nama, deskripsi tentang bagaimana fitur itu dihitung, file python yang menjalankan ekstraksi, dll.Demikian juga, koleksi
models
termasuk model yang dijalankan pada data. Setiap entri mungkin memiliki nama, daftar fitur yang digunakan untuk melatih model, parameter akhirnya, nilai prediksi pada set uji yang diadakan, metrik untuk bagaimana model dilakukan, dll.Dari sudut pandang saya, ini memiliki sejumlah manfaat:
Dari pertanyaan Anda, sepertinya Anda bisa menyesuaikan pendekatan ini dengan alur kerja masalah Anda. Instal Mongo atau database pilihan lain, lalu simpan setiap percobaan, inputnya, hasilnya, dan apa pun yang ingin Anda lacak selama proyek berlangsung. Paling tidak ini lebih mudah untuk di-query daripada spreadsheet.
sumber