Rekayasa fitur agnostik domain yang mempertahankan makna semantik?

12

Rekayasa fitur sering merupakan komponen penting untuk pembelajaran mesin (itu digunakan sangat banyak untuk memenangkan Piala KDD pada 2010 ). Namun, saya menemukan bahwa sebagian besar teknik teknik fitur baik

  • hancurkan makna intuitif dari fitur yang mendasarinya atau
  • sangat spesifik untuk domain tertentu atau bahkan tipe fitur tertentu.

Contoh klasik dari yang pertama adalah analisis komponen utama. Tampak bagi saya bahwa pengetahuan apa pun yang dimiliki oleh seorang ahli subjek tentang fitur akan dihancurkan dengan mengubah fitur-fitur tersebut ke komponen utama.

Bandingkan itu dengan teknik sederhana mengubah tanggal menjadi fitur untuk "hari bulan" dan "hari dalam seminggu." Arti yang mendasarinya masih dipertahankan dalam fitur-fitur baru, tetapi jelas teknik khusus ini hanya berlaku untuk tanggal dan bukan fitur sewenang-wenang.

Apakah ada badan standar teknik rekayasa fitur yang tidak merusak makna fitur yang mendasari sementara juga berlaku untuk domain sewenang-wenang (atau setidaknya berbagai macam domain)?

Michael McGowan
sumber
2
PCA terkadang dapat digunakan untuk menemukan makna intuitif untuk fitur - misalnya eigenfaces .
tdc
Bisakah Anda memberikan (lebih banyak) contoh data yang ada dalam pikiran Anda? jika Anda dapat lebih spesifik tentang aplikasi Anda (bahkan beberapa contoh sewenang-wenang) akan lebih mudah untuk memberikan (lebih banyak) jawaban yang akurat.
Dov
1
@Dov Yah intinya adalah bahwa (idealnya) saya ingin sesuatu yang bisa bekerja untuk hampir semua, dataset tabular terstruktur (yang memiliki titik data dan fitur). Jadi ini bisa berupa data penjualan, data keuangan, data penemuan obat, data bisbol, dll.
Michael McGowan

Jawaban:

7

Saya mengetahui satu metode penguraian (tapi mungkin ada lebih banyak ...) yang dapat berguna dalam skenario seperti yang Anda gambarkan. Ini seperti 2D-PCA - metode dekomposisi orde tinggi di mana dekomposisi (yaitu faktor) memiliki beberapa makna. Anda dapat melihat contoh dan membacanya di sini dan di sini dan coba di sini

Dov
sumber
+ tolong maafkan saya bahwa saya bukan penutur asli bahasa Inggris :)
Dov
Dari apa yang saya diberitahu, langkah terakhir PCA harus berusaha untuk menemukan makna untuk komponen utama.
jb.
5

Metode pembelajaran mendalam baru-baru ini menggunakan Mesin Boltzmann Terbatas telah menunjukkan fitur bagus pada beberapa tipe data (audio, gambar, teks).

Karena metode ini membuat model generatif, Anda sering dapat menghasilkan sampel yang sangat bagus dari model.

Lihat publikasi Hinton. http://www.cs.toronto.edu/~hinton/

Metode-metode ini tidak sepenuhnya umum (jalankan kode yang sama pada setiap data), tetapi model yang mendasarinya biasanya serupa.

Ran
sumber