Bagaimana cara mengukur redundansi fitur?

10

Saya memiliki tiga fitur yang saya gunakan untuk menyelesaikan masalah klasifikasi. Awalnya, fitur-fitur ini menghasilkan nilai boolean, jadi saya bisa mengevaluasi redundansi mereka dengan melihat berapa banyak set klasifikasi positif dan negatif yang tumpang tindih. Sekarang saya telah memperluas fitur untuk menghasilkan nilai nyata (skor), dan saya ingin menganalisis redundansi mereka lagi, tetapi saya benar-benar bingung bagaimana cara melakukannya. Adakah yang bisa memberi saya petunjuk atau ide tentang bagaimana cara melakukannya?

Saya tahu pertanyaan ini sangat samar, itu karena saya tidak memiliki pemahaman statistik yang sangat kuat. Jadi, jika Anda tidak memiliki jawaban untuk saya, mungkin Anda memiliki beberapa pertanyaan yang dapat membantu saya memahami dengan lebih baik.

Sunting: Saat ini saya sedang menelusuri Wikipedia tentang masalah ini, saya merasa bahwa yang saya inginkan adalah koefisien korelasi, tetapi saya masih ragu apakah ini pendekatan yang tepat, dan mana dari banyak koefisien yang tersedia yang sesuai.

Sunting 2: Dalam kasus boolean, saya pertama kali membuat untuk setiap fitur set sampel yang memang benar. Kemudian, korelasi antara dua fitur adalah ukuran persimpangan set ini terhadap ukuran gabungan set ini. Jika nilai ini adalah 1, mereka sepenuhnya berlebihan, karena selalu sama. Jika 0, mereka tidak pernah sama.

Björn Pollex
sumber
itu akan membantu jika Anda memberikan contoh bagaimana Anda mendefinisikan redundansi dalam kasus boolean, dan hasil seperti apa yang Anda harapkan dalam kasus kontinu
mpiktas
@mpiktas: Edit pertanyaan saya sebagai tanggapan atas komentar Anda.
Björn Pollex

Jawaban:

4

Ini terdengar seperti masalah pemilihan fitur, jika ini masalahnya, saya pikir Anda ingin menghitung informasi timbal balik antara semua himpunan bagian dari fitur dan output klasifikasi. Subhimpunan dengan informasi timbal balik tertinggi akan menjadi seperangkat fitur yang berisi paling banyak 'informasi' tentang klasifikasi catatan yang dihasilkan.

Jika Anda hanya memiliki 3 fitur, Anda dapat menghitung semua himpunan bagian yang mungkin dalam jumlah waktu yang wajar, jika set fitur Anda tumbuh lebih besar, Anda harus memperkirakan ini (biasanya menggunakan pendekatan serakah: mengambil fitur dengan MI tertinggi di setiap langkah ).

Nick
sumber
2
(+1) untuk informasi timbal balik. Komentar tambahan: a) Saya menyarankan Mendapatkan Informasi sebagai kasus khusus dari saling informasi. b) Pemilihan fitur otomatis tidak hanya akan menghapus redundan tetapi juga semua fitur yang berdampak negatif pada diskriminasi kelas.
steffen
Terima kasih! Ini kedengarannya sangat menjanjikan, saya akan memeriksanya.
Björn Pollex