Tutorial untuk rekayasa fitur

19

Seperti diketahui oleh semua, rekayasa fitur sangat penting untuk pembelajaran mesin, namun saya menemukan beberapa bahan yang terkait dengan bidang ini. Saya berpartisipasi dalam beberapa kompetisi di Kaggle dan percaya bahwa fitur yang baik bahkan mungkin lebih penting daripada klasifikasi yang baik dalam beberapa kasus. Adakah yang tahu tutorial tentang rekayasa fitur, atau ini pengalaman murni?

FindBoat
sumber
1
Maksud Anda pra-proses fitur (normalisasi dan transformasi lainnya) atau pemilihan fitur?
MattBagg
2
@ mb3041023 Tidak, langkah sebelum keduanya, di mana Anda mengonversi beberapa data mentah seperti teks, gambar, atau seri menjadi beberapa atribut yang dapat digunakan.
8
Dalam pengalaman saya, sebagian besar masalah pembelajaran mesin, secara harfiah mengatur masalah yang benar untuk dipecahkan / dioptimalkan (yaitu fitur, representasi fitur, pemilihan, dll). Saya ingin melihat buku yang sepenuhnya didedikasikan untuk pemilihan fitur empiris dan pra-pemrosesan dengan banyak ilustrasi kehidupan nyata (seperti kaggle). Jika ada yang tahu, tolong. pos. Ada beberapa buku yang didedikasikan untuk hal-hal seperti pembersihan data / imputasi data, tetapi teks praktis khusus tentang pemilihan fitur sangat diperlukan.
tepuk
2
Lihatlah: "Ekstraksi Fitur: Yayasan dan Aplikasi", 2006
jasonb
2
@jasonb, bagaimana dengan penulis, ukuran, harga, dan tautan, kira-kira seperti ini: Guyon ed., Ekstraksi Fitur: Yayasan dan Aplikasi 2006, 778p, $ 306
denis

Jawaban:

7

Saya akan mengatakan pengalaman - ide dasar adalah:

  • agar sesuai dengan cara kerja pengklasifikasi; memberikan masalah geometri ke pohon, dimensi yang terlalu besar untuk kNN dan data interval ke SVM bukanlah ide yang baik
  • menghapus sebanyak mungkin nonlinier; berharap bahwa beberapa classifier akan melakukan analisis Fourier di dalamnya agak naif (bahkan jika, itu akan membuang banyak kompleksitas di sana)
  • membuat fitur umum untuk semua objek sehingga beberapa pengambilan sampel dalam rantai tidak akan menjatuhkannya
  • periksa karya-karya sebelumnya - seringkali transformasi yang digunakan untuk visualisasi atau pengujian jenis data yang serupa sudah disesuaikan untuk mengungkap aspek-aspek menarik
  • hindari transformasi yang tidak stabil dan optimal seperti PCA yang dapat menyebabkan overfitting
  • banyak bereksperimen

sumber
Bagaimana Anda mendefinisikan "data interval"? Saya mencari di Google dan menemukan banyak definisi berbeda.
kekuatan
dapatkah Anda menguraikan titik PCA?
Daniel Velkov
x|x-prime terdekat|<0,3
@DanielVelkov Ketika Anda bootstrap PCA pada data yang agak bising, komponennya sering tidak stabil; ini mempromosikan ide untuk membuat satu PCA global di seluruh rangkaian yang tersedia, apa yang bocor informasi dan merupakan cara langsung untuk merusak evaluasi.
@ MBB bagaimana jika PCA dijalankan hanya pada set pelatihan, seperti yang seharusnya?
Daniel Velkov
1

Ada sebuah buku dari O'Reilly yang disebut " Feature Engineering for Machine Learning " oleh Zheng et al.

Saya membaca buku dan mencakup berbagai jenis data (misalnya kategorikal, teks ...) dan menjelaskan berbagai aspek rekayasa fitur yang menyertainya. Ini termasuk hal-hal seperti normalisasi data, pemilihan fitur, tf-idf dalam teks.

NumSim
sumber