Ekstraksi fitur dan pemilihan fitur pada dasarnya mengurangi dimensi data, tetapi ekstraksi fitur juga membuat data lebih dapat dipisahkan, jika saya benar.
Teknik mana yang lebih disukai daripada yang lain dan kapan?
Saya berpikir, karena pemilihan fitur tidak mengubah data asli dan sifat-sifatnya, saya berasumsi bahwa Anda akan menggunakan pemilihan fitur ketika penting bahwa fitur yang Anda latih tidak berubah. Tapi saya tidak bisa membayangkan mengapa Anda menginginkan sesuatu seperti ini ..
Seperti yang dikatakan Aditya, ada 3 istilah terkait fitur yang terkadang membingungkan satu sama lain. Saya akan mencoba dan memberikan penjelasan ringkasan kepada mereka masing-masing:
Jika satu-satunya hal yang ingin Anda capai adalah pengurangan dimensi dalam dataset yang ada, Anda dapat menggunakan transformasi fitur atau metode pemilihan fitur. Tetapi jika Anda perlu mengetahui interpretasi fisik dari fitur yang Anda identifikasi sebagai "penting" atau Anda mencoba membatasi jumlah data yang perlu dikumpulkan untuk analisis Anda (Anda memerlukan semua set fitur awal untuk transformasi fitur), maka hanya pemilihan fitur yang dapat bekerja.
Anda dapat menemukan detail lebih lanjut tentang Pemilihan Fitur dan Pengurangan Dimensi pada tautan berikut:
Ringkasan metode Pengurangan Dimensi
Klasifikasi dan Pemilihan Fitur: Suatu Tinjauan
Pertanyaan dan jawaban yang relevan di Stack Overflow
sumber
Saya pikir mereka adalah 2 hal yang berbeda,
Mari kita mulai dengan Pemilihan Fitur :
Teknik ini digunakan untuk memilih fitur yang menjelaskan sebagian besar variabel target (memiliki korelasi dengan variabel target). Tes ini dijalankan tepat sebelum model diterapkan pada data.
Untuk menjelaskannya dengan lebih baik, mari kita ambil contoh: ada 10 fitur dan 1 variabel target, 9 fitur menjelaskan 90% dari variabel target dan 10 fitur bersama-sama menjelaskan 91% dari variabel target. Jadi variabel 1 tidak membuat banyak perbedaan sehingga Anda cenderung untuk menghapus itu sebelum pemodelan (Ini subjektif untuk bisnis juga). Saya juga bisa disebut sebagai Predictor Pentingnya.
Sekarang mari kita bicara tentang Ekstraksi Fitur ,
Yang digunakan dalam Unsupervised Learning, ekstraksi kontur dalam gambar, ekstraksi Bi-gram dari teks, ekstraksi fonem dari rekaman teks yang diucapkan. Ketika Anda tidak tahu apa-apa tentang data seperti tidak ada kamus data, terlalu banyak fitur yang berarti data tidak dalam format yang dapat dimengerti. Kemudian Anda mencoba menerapkan teknik ini untuk mendapatkan beberapa fitur yang menjelaskan sebagian besar data. Ekstraksi fitur melibatkan transformasi fitur, yang sering kali tidak dapat dibalik karena beberapa informasi hilang dalam proses pengurangan dimensi.
Anda dapat menerapkan Ekstraksi Fitur pada data yang diberikan untuk mengekstrak fitur dan kemudian menerapkan Pemilihan Fitur sehubungan dengan Variabel Target untuk memilih subset yang dapat membantu dalam membuat model yang baik dengan hasil yang baik.
Anda dapat melihat Link-1 ini , Link-2 untuk pemahaman yang lebih baik.
kita dapat mengimplementasikannya dalam R, Python, SPSS.
beri tahu saya jika perlu klarifikasi lagi.
sumber
Keduanya sangat berbeda: Pemilihan Fitur memang mengurangi dimensi, tetapi ekstraksi fitur menambah dimensi yang dihitung dari fitur lain.
Untuk data panel atau time series, seseorang biasanya memiliki variabel datetime, dan seseorang tidak ingin melatih variabel dependen pada tanggal itu sendiri karena mereka tidak terjadi di masa depan. Jadi, Anda harus menghilangkan datetime: penghapusan fitur.
Di sisi lain, hari kerja / akhir pekan mungkin sangat relevan, jadi kita perlu menghitung status hari kerja dari datetime: ekstraksi fitur.
sumber
Mengutip: "A Hands on Machine Learning dengan SciKit-Learn, Keras & Tensorflow - Aurelien Geron"
sumber