Saya memiliki satu set data kata-kata. Saya secara acak memilih beberapa poin dan menggunakannya untuk pengujian dan yang lainnya digunakan untuk pelatihan.
- kasus (1) Saya hanya mengambil setiap titik data dari set tes dan mengklasifikasikannya memiliki label kelas yang sama dengan titik terdekat dari set kereta.
- kasus (2) Saya melakukan klasifikasi menggunakan classifier terawasi yang diketahui.
Saya selalu mendapatkan tingkat pengakuan yang lebih baik jika (1). Artinya, tidak melakukan pembelajaran sama sekali, lebih baik daripada menggunakan pembelajaran yang diawasi, untuk kumpulan data ini (dan lainnya)! Apakah itu situasi yang sering terjadi?
Jawaban:
Tidak benar bahwa Anda tidak melakukan pembelajaran apa pun. Apa yang Anda lakukan adalah menggunakan algoritma klasifikasi terkenal yang disebut Nearest Neighbor (NN). Penting untuk menyadari bahwa Anda belajar selama Anda menggunakan data kereta (bahkan jika Anda tidak secara eksplisit menghitung beberapa parameter) - dan dalam hal ini Anda pasti menggunakannya.
Tidak apa-apa kalau NN baik-baik saja. Namun, dalam beberapa kasus mungkin itu pertanda bahwa ada masalah dengan data Anda. Ini bisa terjadi ketika data Anda bukan IID . Misalnya, dalam beberapa kasus, Anda mungkin memiliki atau menutup duplikat dalam data Anda. Dalam kasus seperti itu, banyak contoh di set tes akan memiliki tetangga dekat di set kereta dan Anda akan mendapatkan tingkat keberhasilan yang tinggi tetapi sebenarnya Anda overfitting, karena jika Anda mendapatkan poin baru tanpa duplikat kinerja Anda akan lebih buruk. Apa yang dapat Anda lakukan dalam kasus ini adalah mencoba untuk menghapus duplikat di muka, atau membangun set kereta / tes sedemikian rupa sehingga duplikat (atau cluster ketat) harus berada di set yang sama. Penting untuk melihat data dan mencoba memahami apa yang sedang terjadi.
sumber