Saya baru saja menyelesaikan pembelajaran mesin untuk kursus R di cognitiveclass.ai dan mulai bereksperimen dengan hutan acak.
Saya telah membuat model dengan menggunakan pustaka "randomForest" di R. Model dikelompokkan berdasarkan dua kelas, baik, dan buruk.
Saya tahu bahwa ketika model overfit, ia berkinerja baik pada data dari pelatihannya sendiri tetapi buruk pada data out-of-sample.
Untuk melatih dan menguji model saya, saya telah mengocok dan membagi dataset lengkap menjadi 70% untuk pelatihan dan 30% untuk pengujian.
Pertanyaan saya: Saya mendapatkan akurasi 100% dari prediksi yang dilakukan pada set pengujian. Apakah ini buruk? Tampaknya terlalu bagus untuk menjadi kenyataan.
Tujuannya adalah pengenalan bentuk gelombang pada empat pada satu sama lain tergantung bentuk gelombang. Fitur-fitur dari dataset adalah hasil dari analisis Dynamic Time Warping dari bentuk gelombang dengan bentuk gelombang target.
sumber
Jawaban:
Skor validasi yang tinggi seperti akurasi umumnya berarti bahwa Anda tidak overfitting, namun harus mengarah pada kehati-hatian dan mungkin mengindikasikan ada yang tidak beres. Ini juga bisa berarti bahwa masalahnya tidak terlalu sulit dan model Anda benar-benar berkinerja baik. Dua hal yang bisa salah:
sumber
Selidiki untuk melihat apa fitur yang paling prediktif Anda. Terkadang Anda secara tidak sengaja memasukkan target Anda (atau sesuatu yang setara dengan target Anda) di antara fitur-fitur Anda.
sumber