Rekayasa fitur sering merupakan komponen penting untuk pembelajaran mesin (itu digunakan sangat banyak untuk memenangkan Piala KDD pada 2010 ). Namun, saya menemukan bahwa sebagian besar teknik teknik fitur baik
- hancurkan makna intuitif dari fitur yang mendasarinya atau
- sangat spesifik untuk domain tertentu atau bahkan tipe fitur tertentu.
Contoh klasik dari yang pertama adalah analisis komponen utama. Tampak bagi saya bahwa pengetahuan apa pun yang dimiliki oleh seorang ahli subjek tentang fitur akan dihancurkan dengan mengubah fitur-fitur tersebut ke komponen utama.
Bandingkan itu dengan teknik sederhana mengubah tanggal menjadi fitur untuk "hari bulan" dan "hari dalam seminggu." Arti yang mendasarinya masih dipertahankan dalam fitur-fitur baru, tetapi jelas teknik khusus ini hanya berlaku untuk tanggal dan bukan fitur sewenang-wenang.
Apakah ada badan standar teknik rekayasa fitur yang tidak merusak makna fitur yang mendasari sementara juga berlaku untuk domain sewenang-wenang (atau setidaknya berbagai macam domain)?
sumber
Jawaban:
Saya mengetahui satu metode penguraian (tapi mungkin ada lebih banyak ...) yang dapat berguna dalam skenario seperti yang Anda gambarkan. Ini seperti 2D-PCA - metode dekomposisi orde tinggi di mana dekomposisi (yaitu faktor) memiliki beberapa makna. Anda dapat melihat contoh dan membacanya di sini dan di sini dan coba di sini
sumber
Metode pembelajaran mendalam baru-baru ini menggunakan Mesin Boltzmann Terbatas telah menunjukkan fitur bagus pada beberapa tipe data (audio, gambar, teks).
Karena metode ini membuat model generatif, Anda sering dapat menghasilkan sampel yang sangat bagus dari model.
Lihat publikasi Hinton. http://www.cs.toronto.edu/~hinton/
Metode-metode ini tidak sepenuhnya umum (jalankan kode yang sama pada setiap data), tetapi model yang mendasarinya biasanya serupa.
sumber