Saya memiliki tiga fitur yang saya gunakan untuk menyelesaikan masalah klasifikasi. Awalnya, fitur-fitur ini menghasilkan nilai boolean, jadi saya bisa mengevaluasi redundansi mereka dengan melihat berapa banyak set klasifikasi positif dan negatif yang tumpang tindih. Sekarang saya telah memperluas fitur untuk menghasilkan nilai nyata (skor), dan saya ingin menganalisis redundansi mereka lagi, tetapi saya benar-benar bingung bagaimana cara melakukannya. Adakah yang bisa memberi saya petunjuk atau ide tentang bagaimana cara melakukannya?
Saya tahu pertanyaan ini sangat samar, itu karena saya tidak memiliki pemahaman statistik yang sangat kuat. Jadi, jika Anda tidak memiliki jawaban untuk saya, mungkin Anda memiliki beberapa pertanyaan yang dapat membantu saya memahami dengan lebih baik.
Sunting: Saat ini saya sedang menelusuri Wikipedia tentang masalah ini, saya merasa bahwa yang saya inginkan adalah koefisien korelasi, tetapi saya masih ragu apakah ini pendekatan yang tepat, dan mana dari banyak koefisien yang tersedia yang sesuai.
Sunting 2: Dalam kasus boolean, saya pertama kali membuat untuk setiap fitur set sampel yang memang benar. Kemudian, korelasi antara dua fitur adalah ukuran persimpangan set ini terhadap ukuran gabungan set ini. Jika nilai ini adalah 1, mereka sepenuhnya berlebihan, karena selalu sama. Jika 0, mereka tidak pernah sama.
sumber
Jawaban:
Ini terdengar seperti masalah pemilihan fitur, jika ini masalahnya, saya pikir Anda ingin menghitung informasi timbal balik antara semua himpunan bagian dari fitur dan output klasifikasi. Subhimpunan dengan informasi timbal balik tertinggi akan menjadi seperangkat fitur yang berisi paling banyak 'informasi' tentang klasifikasi catatan yang dihasilkan.
Jika Anda hanya memiliki 3 fitur, Anda dapat menghitung semua himpunan bagian yang mungkin dalam jumlah waktu yang wajar, jika set fitur Anda tumbuh lebih besar, Anda harus memperkirakan ini (biasanya menggunakan pendekatan serakah: mengambil fitur dengan MI tertinggi di setiap langkah ).
sumber