Apakah akurasi model 100% pada overfitting data out-of-sample?

11

Saya baru saja menyelesaikan pembelajaran mesin untuk kursus R di cognitiveclass.ai dan mulai bereksperimen dengan hutan acak.

Saya telah membuat model dengan menggunakan pustaka "randomForest" di R. Model dikelompokkan berdasarkan dua kelas, baik, dan buruk.

Saya tahu bahwa ketika model overfit, ia berkinerja baik pada data dari pelatihannya sendiri tetapi buruk pada data out-of-sample.

Untuk melatih dan menguji model saya, saya telah mengocok dan membagi dataset lengkap menjadi 70% untuk pelatihan dan 30% untuk pengujian.

Pertanyaan saya: Saya mendapatkan akurasi 100% dari prediksi yang dilakukan pada set pengujian. Apakah ini buruk? Tampaknya terlalu bagus untuk menjadi kenyataan.

Tujuannya adalah pengenalan bentuk gelombang pada empat pada satu sama lain tergantung bentuk gelombang. Fitur-fitur dari dataset adalah hasil dari analisis Dynamic Time Warping dari bentuk gelombang dengan bentuk gelombang target.

Milan van Dijck
sumber
selamat datang di situs ini! Apakah Anda mencoba memprediksi pada beberapa data noise?
Toros91
Setiap kali Anda melakukan perombakan, latih dan uji, akurasinya 100%?
Alex
@Alex Tidak persis tetapi tetap sangat tinggi seperti 98,55%
Milan van Dijck
1
@Alex 11,35% "ok" dan 88,65% "buruk"
Milan van Dijck
1
Itu cukup tidak seimbang. Coba gunakan resampling (pengambilan sampel berulang) untuk memberi tip saldo dalam set pelatihan menuju kelas OK (menjadikannya 30% misalnya) dan simpan rasio 11/89 dalam set tes / validasi. Mendapatkan apa?
Alex

Jawaban:

29

Skor validasi yang tinggi seperti akurasi umumnya berarti bahwa Anda tidak overfitting, namun harus mengarah pada kehati-hatian dan mungkin mengindikasikan ada yang tidak beres. Ini juga bisa berarti bahwa masalahnya tidak terlalu sulit dan model Anda benar-benar berkinerja baik. Dua hal yang bisa salah:

  • Anda tidak membagi data dengan benar dan data validasi juga terjadi dalam data pelatihan Anda, yang berarti itu menunjukkan overfitting karena Anda tidak mengukur generalisasi lagi
  • Anda menggunakan beberapa rekayasa fitur untuk membuat fitur tambahan dan Anda mungkin telah memperkenalkan beberapa kebocoran target, di mana baris Anda menggunakan informasi dari target saat ini, bukan hanya dari yang lain dalam rangkaian pelatihan Anda
Jan van der Vegt
sumber
11
Akurasi 100% selalu berteriak "kebocoran target."
Paul
1

Selidiki untuk melihat apa fitur yang paling prediktif Anda. Terkadang Anda secara tidak sengaja memasukkan target Anda (atau sesuatu yang setara dengan target Anda) di antara fitur-fitur Anda.

tom
sumber