Misalkan dalam analisis regresi dalam R, saya memiliki jenis variabel variabel independen dengan 3 level dalam dataset kereta saya. Tetapi dalam data uji mengatur bahwa variabel faktor yang sama memiliki 5 level. Oleh karena itu saya tidak dapat memprediksi nilai respons untuk dataset uji. Apa yang harus dilakukan dalam kasus ini?
9
Jawaban:
Sebagai pemikiran pertama, ini berarti bahwa set pelatihan Anda setidaknya tidak mewakili untuk data aplikasi. Apakah set tes representatif atau tidak adalah pertanyaan yang harus dipikirkan IMHO dengan hati-hati. Dalam konteks ini, penting juga untuk mengetahui apakah kelas-kelas yang hilang ini merupakan masalah dari set pelatihan yang terlalu kecil, atau apakah ini merupakan karakteristik umum dari masalah / tugas / aplikasi. Yaitu, apakah kelas baru yang belum pernah ditemui sebelumnya akan muncul sepanjang waktu.
Pada prinsipnya, saya melihat dua kemungkinan berurusan dengan situasi ini:
Katakan bahwa set pelatihan pasti tidak representatif dan meminta lebih banyak data, terutama untuk data kelas yang hilang. Ini masuk akal jika Anda sampai pada kesimpulan bahwa masalahnya terletak pada set pelatihan tertentu, bukan dengan karakteristik umum aplikasi.
Dalam hal apapun, mengetahui bahwa data pelatihan melewatkan kelas, saya akan mempertimbangkan menggunakan classifer satu kelas. Yaitu classifier yang memperlakukan setiap kelas secara independen dari setiap kelas lain yang mungkin. Idealnya, classifier satu kelas harus mengembalikan "kelas tidak dikenal" untuk kasus uji kelas yang belum tersedia untuk pelatihan. Untuk pengklasifikasi satu kelas, menguji "penolakan" kasus-kasus milik kelas yang benar-benar tidak dikenal ini benar-benar masuk akal.
sunting komentar wrt @ gung: Saya berasumsi bahwa split kereta / tes diperbaiki untuk beberapa alasan semoga bagus .
sumber